add xP3 dataset and belle_2M

2023-05-05 17:05:41 +08:00 · 2023-05-05 17:05:41 +08:00 · 85caa97a6a
commit 85caa97a6a
parent 00cbdbbf26
5 changed files with 105 additions and 8 deletions
--- a/configs/instruct_config.yaml
+++ b/configs/instruct_config.yaml
@ -26,6 +26,7 @@ train:
  train_num_workers: 16
  gradient_accumulation_steps: 1
  prefetch_factor: 100
+  train_and_eval: False
 # global step
 log_interval: 50
 eval_interval: 500
--- a/configs/pretrain_config.yaml
+++ b/configs/pretrain_config.yaml
@ -28,6 +28,7 @@ train:
  train_num_workers: 16
  gradient_accumulation_steps: 12
  prefetch_factor: 100
+  train_and_eval: True
 # global step
 log_interval: 5
 eval_interval: 500
--- a/data/preprocess_instruction.py
+++ b/data/preprocess_instruction.py
@ -9,6 +9,7 @@ Description:
 Copyright (c) 2023 by LiangSong(sl12160010@gmail.com), All Rights Reserved. 
 """
 import json
+from tqdm import tqdm
 import zstandard as zstd
 from datasets import load_dataset

@ -20,7 +21,7 @@ write_path = root_dir + "/instruction_data/part-self_instruct-{}.jsonl.zst"
 total_num = 0
 file_num = 1
 wfp = zstd.open(write_path.format(file_num), "wb", encoding="utf-8")
-for line in dataset["train"]:
+for line in tqdm(dataset["train"]):
    line = json.dumps(line)
    if total_num % 1024 == 0 and total_num > 0:
        file_num += 1
@ -41,7 +42,7 @@ write_path = root_dir + "/instruction_data/part-belle_0.5M-{}.jsonl.zst"
 total_num = 0
 file_num = 1
 wfp = zstd.open(write_path.format(file_num), "wb", encoding="utf-8")
-for line in dataset["train"]:
+for line in tqdm(dataset["train"]):
    line = json.dumps(line)
    if total_num % 1024 == 0 and total_num > 0:
        file_num += 1
@ -62,7 +63,7 @@ write_path = root_dir + "/instruction_data/part-belle_1M-{}.jsonl.zst"
 total_num = 0
 file_num = 1
 wfp = zstd.open(write_path.format(file_num), "wb", encoding="utf-8")
-for line in dataset["train"]:
+for line in tqdm(dataset["train"]):
    line = json.dumps(line)
    if total_num % 1024 == 0 and total_num > 0:
        file_num += 1
@ -78,12 +79,33 @@ print(
    )
 )

+dataset = load_dataset("BelleGroup/train_2M_CN")
+write_path = root_dir + "/instruction_data/part-belle_2M-{}.jsonl.zst"
+total_num = 0
+file_num = 1
+wfp = zstd.open(write_path.format(file_num), "wb", encoding="utf-8")
+for line in tqdm(dataset["train"]):
+    line = json.dumps(line)
+    if total_num % 1024 == 0 and total_num > 0:
+        file_num += 1
+        wfp.close()
+        wfp = zstd.open(write_path.format(file_num), "wb", encoding="utf-8")
+    wfp.write(line.encode("utf-8"))
+    wfp.write(b"\n")
+    total_num += 1
+wfp.close()
+print(
+    "BelleGroup/train_2M_CN preprocess done. Total line: {}, Total file: {}".format(
+        total_num, file_num
+    )
+)
+
 dataset = load_dataset("BelleGroup/school_math_0.25M")
 write_path = root_dir + "/instruction_data/part-belle_school_math_0.25M-{}.jsonl.zst"
 total_num = 0
 file_num = 1
 wfp = zstd.open(write_path.format(file_num), "wb", encoding="utf-8")
-for line in dataset["train"]:
+for line in tqdm(dataset["train"]):
    line = json.dumps(line)
    if total_num % 1024 == 0 and total_num > 0:
        file_num += 1
@ -104,7 +126,7 @@ write_path = root_dir + "/instruction_data/part-belle_multiturn_chat_0.8M-{}.jso
 total_num = 0
 file_num = 1
 wfp = zstd.open(write_path.format(file_num), "wb", encoding="utf-8")
-for line in dataset["train"]:
+for line in tqdm(dataset["train"]):
    line = json.dumps(line)
    if total_num % 1024 == 0 and total_num > 0:
        file_num += 1
@ -125,7 +147,7 @@ write_path = root_dir + "/instruction_data/part-instruct_to_code-{}.jsonl.zst"
 total_num = 0
 file_num = 1
 wfp = zstd.open(write_path.format(file_num), "wb", encoding="utf-8")
-for line in dataset["train"]:
+for line in tqdm(dataset["train"]):
    line = json.dumps(line)
    if total_num % 1024 == 0 and total_num > 0:
        file_num += 1
@ -141,6 +163,69 @@ print(
    )
 )

+# dataset = load_dataset("bigscience/xP3mt", "en")
+# write_path = root_dir + "/instruction_data/part-bigscience/xP3mt_en-{}.jsonl.zst"
+# total_num = 0
+# file_num = 1
+# wfp = zstd.open(write_path.format(file_num), "wb", encoding="utf-8")
+# for line in tqdm(dataset["train"]):
+#     line = json.dumps(line)
+#     if total_num % 1024 == 0 and total_num > 0:
+#         file_num += 1
+#         wfp.close()
+#         wfp = zstd.open(write_path.format(file_num), "wb", encoding="utf-8")
+#     wfp.write(line.encode("utf-8"))
+#     wfp.write(b"\n")
+#     total_num += 1
+# wfp.close()
+# print(
+#     "bigscience/xP3mt_en preprocess done. Total line: {}, Total file: {}".format(
+#         total_num, file_num
+#     )
+# )
+
+dataset = load_dataset("bigscience/xP3mt", "code")
+write_path = root_dir + "/instruction_data/part-xP3mt_code-{}.jsonl.zst"
+total_num = 0
+file_num = 1
+wfp = zstd.open(write_path.format(file_num), "wb", encoding="utf-8")
+for line in tqdm(dataset["train"]):
+    line = json.dumps(line)
+    if total_num % 1024 == 0 and total_num > 0:
+        file_num += 1
+        wfp.close()
+        wfp = zstd.open(write_path.format(file_num), "wb", encoding="utf-8")
+    wfp.write(line.encode("utf-8"))
+    wfp.write(b"\n")
+    total_num += 1
+wfp.close()
+print(
+    "bigscience/xP3mt_code preprocess done. Total line: {}, Total file: {}".format(
+        total_num, file_num
+    )
+)
+
+dataset = load_dataset("bigscience/xP3mt", "zh")
+write_path = root_dir + "/instruction_data/part-xP3mt_zh-{}.jsonl.zst"
+total_num = 0
+file_num = 1
+wfp = zstd.open(write_path.format(file_num), "wb", encoding="utf-8")
+for line in tqdm(dataset["train"]):
+    line = json.dumps(line)
+    if total_num % 1024 == 0 and total_num > 0:
+        file_num += 1
+        wfp.close()
+        wfp = zstd.open(write_path.format(file_num), "wb", encoding="utf-8")
+    wfp.write(line.encode("utf-8"))
+    wfp.write(b"\n")
+    total_num += 1
+wfp.close()
+print(
+    "bigscience/xP3mt_zh preprocess done. Total line: {}, Total file: {}".format(
+        total_num, file_num
+    )
+)
+
 write_path = root_dir + "/instruction_data/part-sharegpt_90K-{}.jsonl.zst"
 total_num = 0
 file_num = 1
@ -150,7 +235,7 @@ with open("{}/sg_90k_part1_html_cleaned.json".format(root_dir), "r") as fp:
 with open("{}/sg_90k_part2_html_cleaned.json".format(root_dir), "r") as fp:
    data2 = json.load(fp)
 data = data1 + data2
-for line in data:
+for line in tqdm(data):
    line = json.dumps(line)
    if total_num % 1024 == 0 and total_num > 0:
        file_num += 1
--- a/dataset/dataset.py
+++ b/dataset/dataset.py
@ -93,6 +93,12 @@ def instruct_transform(batch):
            chat = "user:{}\nsystem:{}".format(prompt, completion)
            texts.append(chat)
        texts = ["[multiturn_sep]".join(texts)]
+    # xP3 preprocess
+    elif "inputs" in batch and "targets" in batch:
+        inputs = batch["inputs"][0]
+        targets = batch["targets"][0]
+        text = "user:{}\nsystem:{}".format(inputs.strip(), targets.strip())
+        texts = [text]
    else:
        raise Exception("Unrecognized instruct dataset format.")
    return {"text": texts}
--- a/solver/trainer.py
+++ b/solver/trainer.py
@ -26,6 +26,7 @@ class Trainer:
        self.train_loader = train_loader
        self.tokenizer = tokenizer
        self.accelerator = accelerator
+        self.train_and_eval = config.get("train_and_eval", False)
        self.gradient_accumulation_steps = config["train"].get(
            "gradient_accumulation_steps", 1
        )
@ -164,6 +165,7 @@ class Trainer:
                if (
                    self.data_step % self.eval_interval == 0
                    and self.accelerator.is_main_process
+                    and self.train_and_eval
                ):
                    self.eval()
                # save state
@ -189,8 +191,10 @@ class Trainer:
            wandb.log({"Training/Loss Scale": self.optim.scaler.get_scale()})
        wandb.log({"Training/Data Step": self.data_step})
        wandb.log({"Training/Global Step": self.global_step})
+        wandb.log({"Training/Epoch": self.epoch})
        self.accelerator.print(
-            "Global Step: {}, Data Step: {}, Loss: {}, Token per second per gpu: {}".format(
+            "Epoch: {}, Global Step: {}, Data Step: {}, Loss: {}, Token per second per gpu: {}".format(
+                self.epoch,
                self.global_step,
                self.data_step,
                losses["total_loss"],