intro-llm / intro-llm.github.io Goto Github PK

website

CSS 47.72% HTML 2.56% JavaScript 6.44% Python 35.19% Shell 8.09%

intro-llm.github.io's Introduction

大语言模型（Large Language Models，LLM）是一种由包含数百亿以上权重的深度神经网络构建的语言模型，使用自监督学习方法通过大量无标记文本进行训练。自2018年以来，包含Google、OpenAI、Meta、百度、华为等公司和研究机构都纷纷发布了包括BERT， GPT等在内多种模型，并在几乎所有自然语言处理任务中都表现出色。2021年开始大模型呈现爆发式的增长，特别是2022年11月ChatGPT发布后，更是引起了全世界的广泛关注。用户可以使用自然语言与系统交互，从而实现包括问答、分类、摘要、翻译、聊天等从理解到生成的各种任务。大型语言模型展现出了强大的对世界知识掌握和对语言的理解。本书将介绍大语言模型的基础理论包括语言模型、分布式模型训练以及强化学习，并以Deepspeed-Chat框架为例介绍实现大语言模型和类ChatGPT系统的实践。

intro-llm.github.io's People

Contributors

Stargazers

Watchers

intro-llm.github.io's Issues

大小写不一致问题

书本 5.5 Deepspeed-Chat SFT 实践章节多次出现Deepspeed和DeepSpeed大小写不一致情况

编辑小问题

page76页，计算墙：单个计算设备所能提供的计算能力与大语言模型所需的总计算量之间存在巨大差
异。2022 年 3 年发布的 NVIDIA H100 SXM 的单卡 FP16 算力也只有 2000 TFLOPs，而 GPT-3
则需要 314 ZFLOPs 的总算力，两者相差了 8 个数量级。

上述中2022年应该是3月吧，读着不太通顺

书中的代码问题

老师您好，请问书中的代码是否可标注URL来源？或者将各章节可执行代码放到GitHub上，感觉这样方便读者直接运行。

请问什么时候可以出版?

从刚看到这本书的预览版就期待出版了,时不时刷一下当当,但一直没有刷到
或者复旦那边可以现场买吗

Some question about the dimension of V on the the first line of page 17.

页码17，第一行， V的维度是L x d_k, 而不是d x d_k吧？

前言有重复语句

“分布式计算”出现重复！可删除

术语错误

76页“全分片数据并行”的英文应为“Fully Sharded Data Parallel”而非"Fully Shared Data Parallel"

5.31节存在章节编号typo

5.31节提到「关于 RoPE 位置编码的具体细节，已在 2.4.1 节进行了介绍」，但2.4.1 节并不存在，实际上的介绍是在2.3.1 节

绪论第二页，最后一段

原本：“n 语法模型整体上来看与训练语料规模和模型的阶数有较大的关系，”

“n 语法模型” 在这一段出现两次。-->"n 元语法模型"

希望能有英文版

大致浏览了一遍，很多表达用中文还是不太习惯；或者有什么综述可以推荐一下吗？比如https://arxiv.org/pdf/2303.18223.pdf 这种
另：感觉书中很多图片还是太粗糙了一点

语句错误

前言iii页（PDF第5页）：“大语言模型涉及深度学习、自然语言处理、分布式计算、分布式计算等众多领域。”——分布式计算写了两次

书非常好，希望能尽快把剩余章节编写完成

书非常好，希望能尽快把剩余章节编写完成
希望最后能打包一下python代码

一些编辑问题

1，表1.2中倒数3、4行出现两个星火认知

没有提供书本配套代码

class PositionalEncoder代码是否存在问题？

章节“2.1.1 嵌入表示层” PositionalEncoder类代码有误


1. class PositionalEncoder(nn.Module):
2. 	def __init__(self, d_model, max_seq_len = 80):
3. 		super().__init__()
4. 		self.d_model = d_model
5. 
6. 		# 根据 pos 和 i 创建一个常量 PE 矩阵
7. 		pe = torch.zeros(max_seq_len, d_model)
8. 		for pos in range(max_seq_len):
9. 			for i in range(0, d_model, 2):
10. 				pe[pos, i] = math.sin(pos / (10000 ** ((2 * i)/d_model)))
11. 				pe[pos, i + 1] = math.cos(pos / (10000 ** ((2 * (i + 1))/d_model)))
12. 		pe = pe.unsqueeze(0)
13. 		self.register_buffer('pe', pe)
14. 
15. 	def forward(self, x):
16. 		# 使得单词嵌入表示相对大一些
17. 		x = x * math.sqrt(self.d_model)
18. 		# 增加位置常量到单词嵌入表示中
19. 		seq_len = x.size(1)
20. 		x = x + Variable(self.pe[:,:seq_len], requires_grad=False).cuda()
21.

第10、11行代码:

 				pe[pos, i] = math.sin(pos / (10000 ** ((2 * i)/d_model)))
 				pe[pos, i + 1] = math.cos(pos / (10000 ** ((2 * (i + 1))/d_model)))

应该是：

 				pe[pos, i] = math.sin(pos / (10000 ** ( i/d_model)))
 				pe[pos, i + 1] = math.cos(pos / (10000 ** (i/d_model)))

第20行最好不要强行加上".cuda()", 建议更改为:
x = x + self.pe[:, :x.size(1)].requires_grad(False)

语序问题

30页正文部分“开始训练后，可以如下输出结果:”，这句存在语序问题

一些格式错误和术语错误

24页脚注：Transformer 解码器的具体结构请参考第8 章??节。

32页 2.3.1 开头第三行：并使用了旋转位置嵌入（RoP），应为RoPE

33页并在PaLM[14] 等模中进行了广泛应用，应为模型

40页 FlashAttention开头空白很大

64～65页出现了两次OpenSubtitles数据机条目

pdf第133页的错误之处

您好，pdf第133页有错误

121页错误

LoRA矩阵A的维度错误，应该为r*k。

代码bugs

感谢张老师的书籍，收益颇丰。
第18页最后的代码段少了return x；
第20页的EncoderLayer中初始化的Norm应为19页定义的NormLayer；
第20页的EncoderLayer中的顺序存在问题：应该是先进行多头注意力机制->残差连接->归一化层。后面的decoder存在同样的问题。

语句错误

你好, 在 p121 页有监督微调章节, 5.2 高效模型微调部分, 第一段的第二句话多了个"被"字.
"为了节省成本, 研究人员提出了多种参数高效(Parameter Efficient)的微调方法被, 旨在仅训练少量参数使模型适应到下游任务."

图片编号问题

81页模型并行第一段的倒数第三行的如图4.9 应为图4.5

术语错误

书本240页“精确率”（Precision）误写为“准确率”（Accuracy）
详见公式(8.2)上方的文字
“精确度（Precision，P）：表示分类预测是正例的结果中，确实是正例的比例。精确度也称查准率、准确率，”
应改为
“精确度（Precision，P）：表示分类预测是正例的结果中，确实是正例的比例。精确度也称查准率、精确率，”

疑似错别字

绪论3第一行 “词的独热编码”应为“词的独特编码”

书本公式

P159 (6.20)
这个公式均方差的被减数少乘了一个项

排版引用异常p24

P24页中脚注中引用异常导致生成问号

年份问题

前言部分的第一句话“在 2019 年，Google 的研究团队开创性地提出了预训练语言模型 BERT[1]”；
一般而言，我在几乎所有场合听到的提及BERT的介绍，都是以论文发布v1版本的2018年10月作为时间节点，感觉很少有2019年的说法。

基于9月26日版本的一些错误

24页脚标，引用错误。
33页RMSNorm归一化函数小节，缺少逗号，第一段“针对输入向量aRMSNorm函数计算公式如下：”应改为“第一段“针对输入向量a，RMSNorm函数计算公式如下：”。
38页图2.6，带状注意力和膨胀注意力的上方图像重复，应修改带状注意力的图。

if args.output_dir is not None:
print_rank_0('saving the final model ...', args.global_rank)
model = convert_lora_to_linear_layer(model)

if args.global_rank == 0:
    save_hf_format(model, tokenizer, args)

if args.zero_stage == 3:
    # For zero stage 3, each gpu only has a part of the model, so we need a special save function
    save_zero_three_model(model,
                                          args.global_rank,
                                          args.output_dir,
                                          zero_stage=args.zero_stage)

该部分代码在判断 if args.output_dir is not None: 后的内容应该需要缩进

intro-llm / intro-llm.github.io Goto Github PK

intro-llm.github.io's Introduction

intro-llm.github.io's People

Contributors

Stargazers

Watchers

Forkers

intro-llm.github.io's Issues

Recommend Projects

Recommend Topics

Recommend Org