Update README.md

2023-04-23 16:26:58 +08:00 · 2023-04-23 16:26:58 +08:00 · 92af968637
commit 92af968637
parent cf852bc459
1 changed files with 1 additions and 1 deletions
--- a/README.md
+++ b/README.md
@ -37,7 +37,7 @@ pip install git+https://github.com/s-JoL/transformers.git@dev
 下面是一个关于代码的多轮对话能力的展示

 ![image4](assets/multiturn_chat.jpeg)
-我们简单预估一下达到上面效果的一个花费，训练40K step使用了1.5亿条预训练数据，大约为110B token，总共训练时间76h，按Google Cloud的A100报价花费大约为19152美元。后续的Instruction-tuning训练了12k Step，使用1.6M条数据，总共训练时间3.4h，大约花费342美元。因此从0开始训练一个这样的模型总花费不到20000美元。
+<!-- 我们简单预估一下达到上面效果的一个花费，训练40K step使用了1.5亿条预训练数据，大约为110B token，总共训练时间76h，按Google Cloud的A100报价花费大约为19152美元。后续的Instruction-tuning训练了12k Step，使用1.6M条数据，总共训练时间3.4h，大约花费342美元。因此从0开始训练一个这样的模型总花费不到20000美元。 -->

 目前模型在数学方面和代码方面表现明显较差，这一方面和训练数据有关，另一方面我认为也是模型大小所造成的，然而这方面的逻辑推理能力是一个可用的模型所必备，因此后续更新会关注提升相关能力。
 ## **特性**