intro-llm / intro-llm.github.io Goto Github PK

感谢张老师的书籍，收益颇丰。
第18页最后的代码段少了return x；
第20页的EncoderLayer中初始化的Norm应为19页定义的NormLayer；
第20页的EncoderLayer中的顺序存在问题：应该是先进行多头注意力机制->残差连接->归一化层。后面的decoder存在同样的问题。

代码示例的缩进问题

首先感谢老师的工作。
第四章分布式训练 4.4.2LLAMA分布式训练的示例代码（书中第115页），训练过后保存模型的部分似乎出现缩进错误，如下所示：

if args.output_dir is not None:
print_rank_0('saving the final model ...', args.global_rank)
model = convert_lora_to_linear_layer(model)

if args.global_rank == 0:
    save_hf_format(model, tokenizer, args)

if args.zero_stage == 3:
    # For zero stage 3, each gpu only has a part of the model, so we need a special save function
    save_zero_three_model(model,
                                          args.global_rank,
                                          args.output_dir,
                                          zero_stage=args.zero_stage)

该部分代码在判断 if args.output_dir is not None: 后的内容应该需要缩进

希望能有英文版

大致浏览了一遍，很多表达用中文还是不太习惯；或者有什么综述可以推荐一下吗？比如https://arxiv.org/pdf/2303.18223.pdf 这种
另：感觉书中很多图片还是太粗糙了一点

231页最后一段CrowS-Pairs的引用有问题

书本第231页最后一段CrowS-Pairs第一次出现的位置，目前引用是一个问号

语句错误

前言iii页（PDF第5页）：“大语言模型涉及深度学习、自然语言处理、分布式计算、分布式计算等众多领域。”——分布式计算写了两次

两处错别字

107页 4.4.2章节倒数第六行 PyThorch
136页 5.5章节倒数第三行 Huggingfac

术语错误

书本240页“精确率”（Precision）误写为“准确率”（Accuracy）
详见公式(8.2)上方的文字
“精确度（Precision，P）：表示分类预测是正例的结果中，确实是正例的比例。精确度也称查准率、准确率，”
应改为
“精确度（Precision，P）：表示分类预测是正例的结果中，确实是正例的比例。精确度也称查准率、精确率，”

书中的代码问题

老师您好，请问书中的代码是否可标注URL来源？或者将各章节可执行代码放到GitHub上，感觉这样方便读者直接运行。

请问《大语言模型理论与实践》何时更新，当前的版本是6月19日？

大小写不一致问题

书本 5.5 Deepspeed-Chat SFT 实践章节多次出现Deepspeed和DeepSpeed大小写不一致情况

图片编号问题

81页模型并行第一段的倒数第三行的如图4.9 应为图4.5

请问书籍代码何时开源

如题

基于9月26日版本的一些错误

24页脚标，引用错误。
33页RMSNorm归一化函数小节，缺少逗号，第一段“针对输入向量aRMSNorm函数计算公式如下：”应改为“第一段“针对输入向量a，RMSNorm函数计算公式如下：”。
38页图2.6，带状注意力和膨胀注意力的上方图像重复，应修改带状注意力的图。

五种基于位置的稀疏注意力基本类型第一行第二个图貌似有问题

句子语病问题

书本 19页 2.1.4 残差连接与层归一化第8行
“此外，为了进一步使得每一层的输入输出范围稳定在一个合理的范围内，层归一化技术被进一步引入每个 Transformer 块的当中:”
该句中的两个“范围”重复，两个“进一步”重复，句尾的“的当”多余。
修改建议如下：
“此外，为了使得每一层的输入输出稳定在一个合理的范围内，层归一化技术被进一步引入每个 Transformer 块中:”

前言有重复语句

“分布式计算”出现重复！可删除

PDF第150页似乎有语句不完整

Hi，请问PDF版的P150页6.2“奖励模型”这一章节的第一句话“基于人类反馈训练的奖励模型可以很好的人类的偏好”里“很好的”和“人类偏好”之间是否漏掉了诸如“拟合”，“对齐”这样的动词

章节显示问题

章节显示似乎有些不太合理，请看下图：

5.31节存在章节编号typo

5.31节提到「关于 RoPE 位置编码的具体细节，已在 2.4.1 节进行了介绍」，但2.4.1 节并不存在，实际上的介绍是在2.3.1 节

绪论第二页，最后一段

原本：“n 语法模型整体上来看与训练语料规模和模型的阶数有较大的关系，”

“n 语法模型” 在这一段出现两次。-->"n 元语法模型"

请问配套的代码需要什么配置的显卡才能运行

书非常好，希望能尽快把剩余章节编写完成

书非常好，希望能尽快把剩余章节编写完成
希望最后能打包一下python代码

121页错误

LoRA矩阵A的维度错误，应该为r*k。

编辑小问题

page76页，计算墙：单个计算设备所能提供的计算能力与大语言模型所需的总计算量之间存在巨大差
异。2022 年 3 年发布的 NVIDIA H100 SXM 的单卡 FP16 算力也只有 2000 TFLOPs，而 GPT-3
则需要 314 ZFLOPs 的总算力，两者相差了 8 个数量级。

上述中2022年应该是3月吧，读着不太通顺

文字缺失

第33页SwiGLU函数介绍部分第一行“并在 PaLM[14] 等模中进行了广泛应用”，应为“并在 PaLM[14] 等模型中进行了广泛应用”

语句错误

你好, 在 p121 页有监督微调章节, 5.2 高效模型微调部分, 第一段的第二句话多了个"被"字.
"为了节省成本, 研究人员提出了多种参数高效(Parameter Efficient)的微调方法被, 旨在仅训练少量参数使模型适应到下游任务."

前言中发现一个小错误

大语言模型涉及深度学习、自然语言处理、分布式计算、分布式计算 等众多领域。因此，建议读者在阅读本书之前，首先系统地学习深度学习和自然语言处理的相关课程。在分布式计算和异构计算方面，读者需要具备基本的概念。如果希望在大语言模型训练和推理方面进行深入研究，还需要系统学习分布式系统、并行计算、CUDA 编程等相关知识。

应该是分布式计算、异构计算？

阅读本书发现的一些错别字等问题

您好，16页2.2.2第一段三个线性变换，其中Q的符号写成了K。

前言iii页，第二段，第四行

原文：“大语言模型涉及深度学习、自然语言处理、分布式计算、分布式计算等众多领域。”

“分布式计算”——重复

文字缺失

书本90页4.2.4节第7行“第 9 到第用于表示尾数”缺失部分文字。

排版引用异常p24

P24页中脚注中引用异常导致生成问号

请问什么时候可以出版?

从刚看到这本书的预览版就期待出版了,时不时刷一下当当,但一直没有刷到
或者复旦那边可以现场买吗

术语错误

76页“全分片数据并行”的英文应为“Fully Sharded Data Parallel”而非"Fully Shared Data Parallel"

一些编辑问题

1，表1.2中倒数3、4行出现两个星火认知

class PositionalEncoder代码是否存在问题？

章节“2.1.1 嵌入表示层” PositionalEncoder类代码有误


1. class PositionalEncoder(nn.Module):
2. 	def __init__(self, d_model, max_seq_len = 80):
3. 		super().__init__()
4. 		self.d_model = d_model
5. 
6. 		# 根据 pos 和 i 创建一个常量 PE 矩阵
7. 		pe = torch.zeros(max_seq_len, d_model)
8. 		for pos in range(max_seq_len):
9. 			for i in range(0, d_model, 2):
10. 				pe[pos, i] = math.sin(pos / (10000 ** ((2 * i)/d_model)))
11. 				pe[pos, i + 1] = math.cos(pos / (10000 ** ((2 * (i + 1))/d_model)))
12. 		pe = pe.unsqueeze(0)
13. 		self.register_buffer('pe', pe)
14. 
15. 	def forward(self, x):
16. 		# 使得单词嵌入表示相对大一些
17. 		x = x * math.sqrt(self.d_model)
18. 		# 增加位置常量到单词嵌入表示中
19. 		seq_len = x.size(1)
20. 		x = x + Variable(self.pe[:,:seq_len], requires_grad=False).cuda()
21.

第10、11行代码:

 				pe[pos, i] = math.sin(pos / (10000 ** ((2 * i)/d_model)))
 				pe[pos, i + 1] = math.cos(pos / (10000 ** ((2 * (i + 1))/d_model)))

应该是：

 				pe[pos, i] = math.sin(pos / (10000 ** ( i/d_model)))
 				pe[pos, i + 1] = math.cos(pos / (10000 ** (i/d_model)))

第20行最好不要强行加上".cuda()", 建议更改为:
x = x + self.pe[:, :x.size(1)].requires_grad(False)

intro-llm / intro-llm.github.io Goto Github PK

intro-llm.github.io's Issues

Recommend Projects

Recommend Topics

Recommend Org