add BucketBySequenceLengthDataset to accelerate training speed

2023-03-28 10:05:27 +08:00 · 2023-03-28 10:05:27 +08:00 · 87776f4370
commit 87776f4370
parent 23d307367f
1 changed files with 30 additions and 0 deletions
--- a/dataset/pretrain_dataset.py
+++ b/dataset/pretrain_dataset.py
@ -67,6 +67,36 @@ def pretrain_collate_fn_gen(tokenizer, segment_max_length=1024):
    return pretrain_collate_fn
 class BucketBySequenceLengthDataset(torch.utils.data.IterableDataset):
    def __init__(self, generator, batch_size, bucket_size=32, max_length=1024):
        super().__init__()
        self.generator = generator
        self.batch_size = batch_size
        self.bucket_size = bucket_size
        self.bucket_num = math.ceil(max_length / bucket_size)
        self.buckets = [[] for _ in range(self.bucket_num)]
        self.bucket_idx = None
    def __iter__(self):
        if self.batch_size <= 1:
            return self.generator
        def bucket_iter():
            if self.bucket_idx is not None:
                sample = self.buckets[self.bucket_idx].pop()
                if len(self.buckets[self.bucket_idx]) == 0:
                    self.bucket_idx = None
                yield sample
            sample = next(self.generator) - 1
            sample_len = len(sample)
            bucket_idx = sample_len // self.bucket_size
            if len(self.buckets[bucket_idx]) == self.batch_size - 1:
                self.bucket_idx = bucket_idx
                yield sample
            else: 
                self.buckets[bucket_idx].append(sample)
        return bucket_iter()
 if __name__ == "__main__":
    import sentencepiece as spm
    from datasets import IterableDataset