nndl / nndl.github.io Goto Github PK
View Code? Open in Web Editor NEW《神经网络与深度学习》 邱锡鹏著 Neural Network and Deep Learning
Home Page: https://nndl.github.io
《神经网络与深度学习》 邱锡鹏著 Neural Network and Deep Learning
Home Page: https://nndl.github.io
第六章103页卷积的分类有语病“不在某某范围之外”以及宽卷积与等长卷积的定义没有定义清楚
第7章中的公式 7.5是不是少了对f的导数?另外,公式中直接将U写出,也未介绍u的含义与数学的定义。
迫不及待买本纸质的了
第111页,公式6.21下一句:
原文:其中,up为上采用函数(Upsampling)。
修改:其中,up为上采样函数(Upsampling)。
第二章 机器学习概述 2.2.3 优化算法 第二段
为了可以【早】到最优的模型以及充分利用凸优化中一些高效、成熟的优化方法,
公式2.67typo,以及描述出现两次公式2.65
关于图5.2的计算方式_20171128版本
96页,第5章,图5.2,二维卷积示例。
示例中的计算,左上角的1,为什么是和卷积核中右下角的“-1”相乘?
是不是应该乘以卷积核中左上角的1?---和其他地方看到的卷积计算方法不一样。
还是因为做了其他的处理呢?--是不是因为做了翻转?如果是这样,好像计算方法是合理的。
谢谢.
--读者:刘永辉
感谢作者的无私共享。
z_t = \sigma (W_z x_t + U_z h_t + b_z)
12.1. 2 参数学习中公式(12.13)的求和符号的下标应该是n=1..N,不是 i = 1..N。(小错误)
机器学习概述,p23,特征学习中最后一句“提高模型泛华参数”应为“提高模型泛化参数”
邱教授您好!看了您的关于中文分词的很多论文,对我帮助很大,在此感谢!
关于这本书中的对于神经网络的层数记法,我怀有疑问,具体如下:
在本书中,显然,输入层是计入神经网络的总层数的,但是我看很多论文以及课程中,输入层是不计入神经网络的总层数的。原因是输入层没有可调的参数,不应该被计入神经网络的层数。
如wikipedia.org中对于Word2vec的描述:Word2vec is a group of related models that are used to produce word embeddings. These models are shallow, two-layer neural networks that are trained to reconstruct linguistic contexts of words.
如斯坦福的cs231n课程中所述:Naming conventions. Notice that when we say N-layer neural network, we do not count the input layer. Therefore, a single-layer neural network describes a network with no hidden layers (input directly mapped to output). In that sense, you can sometimes hear people say that logistic regression or SVMs are simply a special case of single-layer Neural Networks.
如有错误,还望不吝赐教!
我仔细阅读了第十二章的内容,并对绝大部分公式进行了推导,发现以下一些错误(准确说,应该是笔误,细节小问题)
第1页,黑体“局部表示”的下一行中“假设有1000中颜色”的“中”,应为“种”
公式(12.9)中字母 “i” 有点问题,应直接用“t”
公式(12.52)上一行中字母“K”应该为小写"k",本页倒数第二行也是小写,应统一
公式(12.68)上一行中“趋向于无穷大是”中“是”,应改为“时”
公式(12.73)至(12.75)中出现的h_{t} 与 h 应统一,有些漏掉下标 t,同理(12.84)至(12.88)中建议检查一下是否需要下标 t
第22页,黑体“真实样本”的上2行,句末“是的”,应为“使得”
其实都是一些无关紧要的小细节,如果老师检查后觉得有误就修改一下,非常感谢老师贡献出精彩的写作!供我们学习,谢谢您~
第六章循环神经网络中,章节6.2.2与章节6.2.3内容是一样的;以及在6.2.2中第一行“在同步的序列到序列模式中(如图6.5所示)”应该是“(如图6.4所示)”
log 里面的分式 分子和分母写反了
ch5. page 79,关于记忆网络的描述中“和反馈网络相比,反馈网络具有更强的记忆功能。”应是“记忆网络具有更强的记忆功能。”
ch5. page 100,“每次小批量梯度下降的”应为“每次小批量梯度下降的样本数”
1.第93页_第5章_正文第三段。“参数的规模也会极具增加”,应该是“急剧增加”。
2.第95页,倒数第7行,“图5.4给出了一维卷积示例”。我看了上下文,估计作者指的应该是“图5.1”吧.
3.第102页,图5.6中,图形左半部分标注为“高度M、宽度N”,但是下面的正文写的是“高度N、宽度M”。是 否需要保持一致?
--读者:刘永辉
感谢作者的无私共享。
当前章节第五页,对于特征学习的描述最后一句
“可以简化模型、缩短训练时间、提高模型泛华能力、避免过拟合等。”其中“泛化能力”出现错别字。
page 161:公式12.31上方,”词汇表V中的每个词……出现的概率“,k的右边少了小于等于号$\leq$。
page 163:底部(”输出层“那一段,公式12.39上方),”其接受的输入为历史信息的向量表示$h_t\mathbb{R}^{d_2}$",h_t后面少了 \in 。
100页中页脚部分 定义子采样函数时,并未交代子采样函数就是提及的“非线性函数”。
个人觉得可以提一句,此种函数为子采样函数,然后再介绍定义。
过拟合的标准定义为:给定一个假设空间H,一个假设h 属于H,如果存在其他的假设h
属于H, 使得在训练样例上h 的损失比h 小,但在整个实例分布上h 比h 的损失
小,那么就说假设h 过度拟合训练数据[?]。
这里h应该是两个不同的概念,能否用不同的标识,否则容易造成误解
请问这一章是还没有写完吗?第二段"在图模型中,我们可以利用"然后没下文了
143页,10.1节最后一句:漏掉了连字符
原文:n元语言模型的困惑度范围一般为501000
之间
修改:50-1000
144页,第2行:漏掉了"属于"符号
原文:第 k 列向量 m_{k} R^{d1}
表示词汇表中第 k 个词对应的稠密向量
修改:m_{k} \in R^{d1}
159页,第3行:漏了"的"
原文:这两个模型是著名的词嵌入学习工具 word2vec 中包含两种模型
修改:这两个模型是著名的词嵌入学习工具 word2vec 中包含的
两种模型
161页,倒数第2行,10.3节的负采样部分:对负样本数量的描述,小规模应改为大规模
原文:通常小规模数据 k 的取值范围在5~20,而小
规模数据 k 可以非常小2~5
修改:通常小规模数据 k 的取值范围在5~20,而大
规模数据 k 可以小至2~5
Mikolov原文:Our experiments indicate that values of k in the range 5–20 are useful for small training datasets, while for large datasets the k can be as small as 2–5. [arXiv 1310.4546]
第三页:
【智能系统如何外部刺激信息(视觉和语音等)进行感知和加工】应为
【智能系统如何对外部刺激信息(视觉和语音等)进行感知和加工】
第八页:
【Kunihiko Fukishima(福岛邦彦)】应为:
【Kunihiko Fukushima(福岛邦彦)】
alexNet的第三个conv layer是384个(3 \times 3 \times 256) kernels connected to the all the outputs of second layer.
通过
真正地通过图灵测试”{, , , }
与
机率的事物集合”0 logb 0
的值将会是0”极大
前馈神经网络的能力”θ 是需要“实现”估计出来的
应该是 需要“实验”吧?
公式11.12与11.13完全一样,11.12应该为”加号“
两个公式的分母应该对调一下
ch4 57页倒数第二行公式 sign后少了一个左括号。
第三行参数θ 的好还通过建立一些准则来衡量应该为参数θ 的好坏通过建立一些准则来衡量
卷积神经网络章节,LeNet-5的介绍中,第4条C3层使用60个5X5滤波器,得到16组大小为10X10的特征映射。上一层汇聚层神经元个数为6X14X14个,这一层不应该是6X16=96个5X5的滤波器才能得到16组大小为10X10的特征映射吗?
131页 “而递归神经网络实在一个有向图无循环图上共享一个组合函数”中的“实在”应为“是在”
252页 (A.58) pi 应该是θi
第2页,图7.1下面第5行,“也成为长期依赖问题”,应该是“也称为长期依赖问题”
第4页,公式(7.6)中字母y是否应该解释一下,突然冒出有点唐突
第7页,图7.4 LSTM结构示例,建议更详细地叙述一下图中信息流动的过程,结合三个门作用,step by step阐述比较好(建议参考http://colah.github.io/posts/2015-08-Understanding-LSTMs/)
卷积神经网络里面的LeNet-5模型的C3卷积层处理的时候,上一层S2的输出数据是6组1414的特征,本层C3输出的时候是16组特征,这里能不能详细讲解一下,
我的理解是,按照梯度计算的表来处理,C3输出的第一组特征是和S2的输出的第1,2,3组特征有关的,也就是说,3组1414的特征,分别对应卷积核w1,w2,w3做卷积操作,其中w1 w2 w3均为55,最后不是应该得到三组1010的特征吗,为啥最后只有一个特征。
中间是不是还有什么处理。大神能不能详细讲解一下。
书写的很好,深入浅出,支持。
感觉这句话还没结束?
P225, 倒数第二段第一句,”但是通过神经网络语言模型来预训练词嵌入由两个不足“-》由应该是有?
第四章 P78
“误差项δ 来表示第l层的神经元对最终误差的影响,也反映了最终的输出对第l 层的神经元对最终误差的敏感程度。”
公式6.8中,第l − 1层的所有特征映射都经过滤波器得到一个第l层的
一组特征映射X(l,k)。也就是说,第l 层的每一组特征映射都依赖于第l 层的所
有特征映射,相当于不同层的特征映射之间是全连接的关系。
--> ...应该是“第l 层的每一组特征映射都依赖于第l - 1层的所
有特征映射”...
个人感觉,排版的空间利用效率不高,阅读体验不太好,打印出来也很浪费纸张
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.