Open-Llama/train_lm.py

"""
Author: s-JoL(sl12160010@gmail.com)
Date: 2023-04-12 19:12:42
LastEditors: s-JoL(sl12160010@gmail.com)
LastEditTime: 2023-05-17 22:20:32
FilePath: /Open-Llama/train_lm.py
Description: 

Copyright (c) 2023 by s-JoL(sl12160010@gmail.com), All Rights Reserved. 
"""
import yaml
import math
import logging
from absl import app
from absl import flags
from accelerate import Accelerator
from torch.utils.data import DataLoader
from peft import LoraConfig, TaskType, get_peft_model
from datasets.distributed import split_dataset_by_node
from transformers import AutoConfig, AutoModelForCausalLM, LlamaTokenizer

from dataset.dataset import construct_dataset
from solver.trainer import Trainer

FLAGS = flags.FLAGS
flags.DEFINE_string("train_config", None, "Training config path")
flags.DEFINE_string(
    "model_config", "configs/model_configs/7B.json", "Model config path"
)


def main(argv):
    with open(FLAGS.train_config, "r", encoding="utf-8") as fp:
        config = yaml.load(fp, Loader=yaml.FullLoader)

    accelerator = Accelerator(
        gradient_accumulation_steps=config["train"].get(
            "gradient_accumulation_steps", 1
        )
    )
    tokenizer = LlamaTokenizer(
        config["data"]["tokenizer_model_path"],
        pad_token="<pad>",
        add_bos_token=False,
        add_eos_token=True,
    )
    data_config = config["data"]
    if data_config.get("split_by_shard", False):
        train_dataset = construct_dataset(
            data_config, tokenizer, world_size=accelerator.num_processes
        )
    else:
        train_dataset = construct_dataset(data_config, tokenizer)
    train_dataset = split_dataset_by_node(
        train_dataset,
        rank=accelerator.process_index,
        world_size=accelerator.num_processes,
    )
    train_loader = DataLoader(
        train_dataset,
        batch_size=config["train"]["train_batch_size"],
        num_workers=config["train"]["train_num_workers"],
        prefetch_factor=config["train"].get("prefetch_factor", 2),
        pin_memory=True,
    )
    # smaller initializer_range make training more stable
    # add stabel embedding to token embedding
    model_config = AutoConfig.from_pretrained(FLAGS.model_config)
    # Make the vocab size divisible by 16
    # https://huggingface.co/docs/transformers/main_classes/deepspeed#how-to-choose-which-zero-stage-and-offloads-to-use-for-best-performance
    # https://developer.nvidia.com/blog/optimizing-gpu-performance-tensor-cores/
    # vocab_size = math.ceil(tokenizer.vocab_size / 16) * 16
    # logging.warning(
    #     "Round vocab_size from {} to {}.".format(tokenizer.vocab_size, vocab_size)
    # )
    vocab_size = tokenizer.vocab_size
    model_config.vocab_size = vocab_size
    model_config.pad_token_id = tokenizer.pad_token_id
    # 使用AutoModel可以在Deepspeed.zero.Init()下正确的生效，而直接使用如OpenLlamaModel不能正确生效，导致浪费大量内存空间
    # https://github.com/huggingface/accelerate/pull/932
    if config["train"]["ckpt"] is not None:
        raw_model = AutoModelForCausalLM.from_pretrained(
            config["train"]["ckpt"], config=model_config
        )
        logging.warning("Loaded ckpt from: {}".format(config["train"]["ckpt"]))
    else:
        raw_model = AutoModelForCausalLM.from_config(model_config)
    # lora
    if config["train"].get("use_lora", False):
        # gradient ckpt bug, https://github.com/huggingface/transformers/issues/23170
        if hasattr(raw_model, "enable_input_require_grads"):
            raw_model.enable_input_require_grads()
        else:

            def make_inputs_require_grad(module, input, output):
                output.requires_grad_(True)

            raw_model.get_input_embeddings().register_forward_hook(
                make_inputs_require_grad
            )
        peft_config = LoraConfig(
            task_type=TaskType.CAUSAL_LM,
            target_modules=["q_proj", "v_proj"],
            inference_mode=False,
            r=1,
            lora_alpha=32,
            lora_dropout=0.1,
        )
        raw_model = get_peft_model(raw_model, peft_config)
        raw_model.print_trainable_parameters()
    if config["train"].get("gradient_checkpointing_enable", False):
        raw_model.gradient_checkpointing_enable()
    trainer = Trainer(config, raw_model, train_loader, tokenizer, accelerator)
    trainer.train()


if __name__ == "__main__":
    app.run(main)
-												update format

											
										
										
											2023-04-12 14:16:15 +00:00
+								"""
-												update header

											
										
										
											2023-05-17 15:21:46 +00:00
+								Author: s-JoL(sl12160010@gmail.com)
-												update format

											
										
										
											2023-04-12 14:16:15 +00:00
+								Date: 2023-04-12 19:12:42
-												update header

											
										
										
											2023-05-17 15:21:46 +00:00
+								LastEditors: s-JoL(sl12160010@gmail.com)
 								LastEditTime: 2023-05-17 22:20:32
-												update header config and add padding to concat_multiple_sequence

											
										
										
											2023-04-27 15:42:11 +00:00
+								FilePath: /Open-Llama/train_lm.py
-												update format

											
										
										
											2023-04-12 14:16:15 +00:00
+								Description:
-												update header

											
										
										
											2023-05-17 15:21:46 +00:00
+								Copyright (c) 2023 by s-JoL(sl12160010@gmail.com), All Rights Reserved.
-												update format

											
										
										
											2023-04-12 14:16:15 +00:00
+								"""
-												add trainer and utils

											
										
										
											2023-04-12 09:59:05 +00:00
+								import yaml
-												add rounding vocab_size

											
										
										
											2023-05-10 09:49:52 +00:00
+								import math
-												add continue training

											
										
										
											2023-04-29 12:28:39 +00:00
+								import logging
-												add trainer and utils

											
										
										
											2023-04-12 09:59:05 +00:00
+								from absl import app
 								from absl import flags
 								from accelerate import Accelerator
 								from torch.utils.data import DataLoader
-												support peft

											
										
										
											2023-05-08 14:26:39 +00:00
+								from peft import LoraConfig, TaskType, get_peft_model
-												use split_dataset_by_node instead accelerate.prepare to accelerate data loading by 50%

											
										
										
											2023-04-26 16:04:11 +00:00
+								from datasets.distributed import split_dataset_by_node
-												Optimized the structure of configs, added support for deepspeed stage3, reduced memory usage by using Auto class to load models, and added support for training 65B models.

											
										
										
											2023-05-06 15:37:17 +00:00
+								from transformers import AutoConfig, AutoModelForCausalLM, LlamaTokenizer
-												add trainer and utils

											
										
										
											2023-04-12 09:59:05 +00:00
-												using huggingface datasets to accelerate training, using open-llama to pretrain

											
										
										
											2023-04-24 11:13:53 +00:00
+								from dataset.dataset import construct_dataset
-												add trainer and utils

											
										
										
											2023-04-12 09:59:05 +00:00
+								from solver.trainer import Trainer
 								FLAGS = flags.FLAGS
-												Optimized the structure of configs, added support for deepspeed stage3, reduced memory usage by using Auto class to load models, and added support for training 65B models.

											
										
										
											2023-05-06 15:37:17 +00:00
+								flags.DEFINE_string("train_config", None, "Training config path")
 								flags.DEFINE_string(
 								    "model_config", "configs/model_configs/7B.json", "Model config path"
 								)
-												add trainer and utils

											
										
										
											2023-04-12 09:59:05 +00:00
-												update format

											
										
										
											2023-04-12 14:16:15 +00:00
-												add trainer and utils

											
										
										
											2023-04-12 09:59:05 +00:00
+								def main(argv):
-												Optimized the structure of configs, added support for deepspeed stage3, reduced memory usage by using Auto class to load models, and added support for training 65B models.

											
										
										
											2023-05-06 15:37:17 +00:00
+								    with open(FLAGS.train_config, "r", encoding="utf-8") as fp:
-												add trainer and utils

											
										
										
											2023-04-12 09:59:05 +00:00
+								        config = yaml.load(fp, Loader=yaml.FullLoader)
-												unified pre-training and instrcution-tuning both use train_lm and dataset

											
										
										
											2023-04-27 11:42:06 +00:00
 								    accelerator = Accelerator(
 								        gradient_accumulation_steps=config["train"].get(
 								            "gradient_accumulation_steps", 1
 								        )
 								    )
-												update tokenizer to LlamaTokenizer

											
										
										
											2023-04-26 10:53:30 +00:00
+								    tokenizer = LlamaTokenizer(
-												using huggingface datasets to accelerate training, using open-llama to pretrain

											
										
										
											2023-04-24 11:13:53 +00:00
+								        config["data"]["tokenizer_model_path"],
 								        pad_token="<pad>",
 								        add_bos_token=False,
 								        add_eos_token=True,
-												update format

											
										
										
											2023-04-12 14:16:15 +00:00
+								    )
-												using huggingface datasets to accelerate training, using open-llama to pretrain

											
										
										
											2023-04-24 11:13:53 +00:00
+								    data_config = config["data"]
-												add split dataset by shard option to accelerate data loading

											
										
										
											2023-05-04 01:20:23 +00:00
+								    if data_config.get("split_by_shard", False):
 								        train_dataset = construct_dataset(
 								            data_config, tokenizer, world_size=accelerator.num_processes
 								        )
 								    else:
 								        train_dataset = construct_dataset(data_config, tokenizer)
-												unified pre-training and instrcution-tuning both use train_lm and dataset

											
										
										
											2023-04-27 11:42:06 +00:00
+								    train_dataset = split_dataset_by_node(
 								        train_dataset,
 								        rank=accelerator.process_index,
 								        world_size=accelerator.num_processes,
-												use split_dataset_by_node instead accelerate.prepare to accelerate data loading by 50%

											
										
										
											2023-04-26 16:04:11 +00:00
+								    )
-												using huggingface datasets to accelerate training, using open-llama to pretrain

											
										
										
											2023-04-24 11:13:53 +00:00
+								    train_loader = DataLoader(
-												unified pre-training and instrcution-tuning both use train_lm and dataset

											
										
										
											2023-04-27 11:42:06 +00:00
+								        train_dataset,
-												using huggingface datasets to accelerate training, using open-llama to pretrain

											
										
										
											2023-04-24 11:13:53 +00:00
+								        batch_size=config["train"]["train_batch_size"],
 								        num_workers=config["train"]["train_num_workers"],
-												update header config and add padding to concat_multiple_sequence

											
										
										
											2023-04-27 15:42:11 +00:00
+								        prefetch_factor=config["train"].get("prefetch_factor", 2),
 								        pin_memory=True,
-												add trainer and utils

											
										
										
											2023-04-12 09:59:05 +00:00
+								    )
 								    # smaller initializer_range make training more stable
 								    # add stabel embedding to token embedding
-												Optimized the structure of configs, added support for deepspeed stage3, reduced memory usage by using Auto class to load models, and added support for training 65B models.

											
										
										
											2023-05-06 15:37:17 +00:00
+								    model_config = AutoConfig.from_pretrained(FLAGS.model_config)
-												add rounding vocab_size

											
										
										
											2023-05-10 09:49:52 +00:00
+								    # Make the vocab size divisible by 16
 								    # https://huggingface.co/docs/transformers/main_classes/deepspeed#how-to-choose-which-zero-stage-and-offloads-to-use-for-best-performance
 								    # https://developer.nvidia.com/blog/optimizing-gpu-performance-tensor-cores/
-												update vocab_size

											
										
										
											2023-05-11 06:15:12 +00:00
+								    # vocab_size = math.ceil(tokenizer.vocab_size / 16) * 16
 								    # logging.warning(
 								    #     "Round vocab_size from {} to {}.".format(tokenizer.vocab_size, vocab_size)
 								    # )
 								    vocab_size = tokenizer.vocab_size
-												add rounding vocab_size

											
										
										
											2023-05-10 09:49:52 +00:00
+								    model_config.vocab_size = vocab_size
-												Optimized the structure of configs, added support for deepspeed stage3, reduced memory usage by using Auto class to load models, and added support for training 65B models.

											
										
										
											2023-05-06 15:37:17 +00:00
+								    model_config.pad_token_id = tokenizer.pad_token_id
-												add comment

											
										
										
											2023-05-09 08:53:05 +00:00
+								    # 使用AutoModel可以在Deepspeed.zero.Init()下正确的生效，而直接使用如OpenLlamaModel不能正确生效，导致浪费大量内存空间
 								    # https://github.com/huggingface/accelerate/pull/932
-												update format

											
										
										
											2023-04-12 14:16:15 +00:00
+								    if config["train"]["ckpt"] is not None:
-												Optimized the structure of configs, added support for deepspeed stage3, reduced memory usage by using Auto class to load models, and added support for training 65B models.

											
										
										
											2023-05-06 15:37:17 +00:00
+								        raw_model = AutoModelForCausalLM.from_pretrained(
 								            config["train"]["ckpt"], config=model_config
 								        )
 								        logging.warning("Loaded ckpt from: {}".format(config["train"]["ckpt"]))
 								    else:
 								        raw_model = AutoModelForCausalLM.from_config(model_config)
-												support peft

											
										
										
											2023-05-08 14:26:39 +00:00
+								    # lora
 								    if config["train"].get("use_lora", False):
-												support gradient ckpt for peft

											
										
										
											2023-05-08 15:40:03 +00:00
+								        # gradient ckpt bug, https://github.com/huggingface/transformers/issues/23170
 								        if hasattr(raw_model, "enable_input_require_grads"):
 								            raw_model.enable_input_require_grads()
 								        else:
-												update wudao download and preprocess

											
										
										
											2023-05-09 06:47:59 +00:00
-												support gradient ckpt for peft

											
										
										
											2023-05-08 15:40:03 +00:00
+								            def make_inputs_require_grad(module, input, output):
 								                output.requires_grad_(True)
-												update wudao download and preprocess

											
										
										
											2023-05-09 06:47:59 +00:00
 								            raw_model.get_input_embeddings().register_forward_hook(
 								                make_inputs_require_grad
 								            )
-												support peft

											
										
										
											2023-05-08 14:26:39 +00:00
+								        peft_config = LoraConfig(
 								            task_type=TaskType.CAUSAL_LM,
 								            target_modules=["q_proj", "v_proj"],
 								            inference_mode=False,
 								            r=1,
 								            lora_alpha=32,
 								            lora_dropout=0.1,
 								        )
 								        raw_model = get_peft_model(raw_model, peft_config)
 								        raw_model.print_trainable_parameters()
-												Optimized the structure of configs, added support for deepspeed stage3, reduced memory usage by using Auto class to load models, and added support for training 65B models.

											
										
										
											2023-05-06 15:37:17 +00:00
+								    if config["train"].get("gradient_checkpointing_enable", False):
 								        raw_model.gradient_checkpointing_enable()
-												add trainer and utils

											
										
										
											2023-04-12 09:59:05 +00:00
+								    trainer = Trainer(config, raw_model, train_loader, tokenizer, accelerator)
 								    trainer.train()
-												update format

											
										
										
											2023-04-12 14:16:15 +00:00
 								if __name__ == "__main__":
 								    app.run(main)