Git Product home page Git Product logo

nndl.github.io's People

Contributors

alan-wang0 avatar chenkaiyu1997 avatar gh1995 avatar gitsamshi avatar hugech38 avatar jerrikeph avatar qipengguo avatar wssccc avatar xpqiu avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

nndl.github.io's Issues

第六章卷积

第六章103页卷积的分类有语病“不在某某范围之外”以及宽卷积与等长卷积的定义没有定义清楚

ch6 page111 有一处打字错误

第111页,公式6.21下一句:
原文:其中,up为上采用函数(Upsampling)。
修改:其中,up为上采样函数(Upsampling)。

第二章机器学习错别字

第二章 机器学习概述 2.2.3 优化算法 第二段
为了可以【早】到最优的模型以及充分利用凸优化中一些高效、成熟的优化方法,

关于图5.2中卷积的计算方式有疑问_20171128版本

关于图5.2的计算方式_20171128版本

96页,第5章,图5.2,二维卷积示例。

示例中的计算,左上角的1,为什么是和卷积核中右下角的“-1”相乘?
是不是应该乘以卷积核中左上角的1?---和其他地方看到的卷积计算方法不一样。
还是因为做了其他的处理呢?--是不是因为做了翻转?如果是这样,好像计算方法是合理的。
谢谢.

--读者:刘永辉
感谢作者的无私共享。

错别字

机器学习概述,p23,特征学习中最后一句“提高模型泛华参数”应为“提高模型泛化参数”

关于神经网络的层数计算

邱教授您好!看了您的关于中文分词的很多论文,对我帮助很大,在此感谢!

关于这本书中的对于神经网络的层数记法,我怀有疑问,具体如下:
在本书中,显然,输入层是计入神经网络的总层数的,但是我看很多论文以及课程中,输入层是不计入神经网络的总层数的。原因是输入层没有可调的参数,不应该被计入神经网络的层数。

如wikipedia.org中对于Word2vec的描述:Word2vec is a group of related models that are used to produce word embeddings. These models are shallow, two-layer neural networks that are trained to reconstruct linguistic contexts of words.

如斯坦福的cs231n课程中所述:Naming conventions. Notice that when we say N-layer neural network, we do not count the input layer. Therefore, a single-layer neural network describes a network with no hidden layers (input directly mapped to output). In that sense, you can sometimes hear people say that logistic regression or SVMs are simply a special case of single-layer Neural Networks.

如有错误,还望不吝赐教!

十二章《词嵌入与语言模型》中一些问题

我仔细阅读了第十二章的内容,并对绝大部分公式进行了推导,发现以下一些错误(准确说,应该是笔误,细节小问题)

  • 第1页,黑体“局部表示”的下一行中“假设有1000中颜色”的“中”,应为“种”

  • 公式(12.9)中字母 “i” 有点问题,应直接用“t”

  • 公式(12.52)上一行中字母“K”应该为小写"k",本页倒数第二行也是小写,应统一

  • 公式(12.68)上一行中“趋向于无穷大是”中“是”,应改为“时”

  • 公式(12.73)至(12.75)中出现的h_{t} 与 h 应统一,有些漏掉下标 t,同理(12.84)至(12.88)中建议检查一下是否需要下标 t

  • 第22页,黑体“真实样本”的上2行,句末“是的”,应为“使得”

其实都是一些无关紧要的小细节,如果老师检查后觉得有误就修改一下,非常感谢老师贡献出精彩的写作!供我们学习,谢谢您~

Chap 6 - RNN 章节6.2.2 与 6.2.3内容重复

第六章循环神经网络中,章节6.2.2与章节6.2.3内容是一样的;以及在6.2.2中第一行“在同步的序列到序列模式中(如图6.5所示)”应该是“(如图6.4所示)”

一些小错误或笔误

ch5. page 79,关于记忆网络的描述中“和反馈网络相比,反馈网络具有更强的记忆功能。”应是“记忆网络具有更强的记忆功能。”
ch5. page 100,“每次小批量梯度下降的”应为“每次小批量梯度下降的样本数”

修改建议_2017年11月28日版本

1.第93页_第5章_正文第三段。“参数的规模也会极具增加”,应该是“急剧增加”。
2.第95页,倒数第7行,“图5.4给出了一维卷积示例”。我看了上下文,估计作者指的应该是“图5.1”吧.
3.第102页,图5.6中,图形左半部分标注为“高度M、宽度N”,但是下面的正文写的是“高度N、宽度M”。是 否需要保持一致?

                                                     --读者:刘永辉

感谢作者的无私共享。

chap-机器学习概述错别字

当前章节第五页,对于特征学习的描述最后一句
“可以简化模型、缩短训练时间、提高模型泛华能力、避免过拟合等。”其中“泛化能力”出现错别字。

Typo of Ch12 (词嵌入与语言模型)

page 161:公式12.31上方,”词汇表V中的每个词……出现的概率“,k的右边少了小于等于号$\leq$。

page 163:底部(”输出层“那一段,公式12.39上方),”其接受的输入为历史信息的向量表示$h_t\mathbb{R}^{d_2}$",h_t后面少了 \in 。

CNN pooling部分叙述不清晰

100页中页脚部分 定义子采样函数时,并未交代子采样函数就是提及的“非线性函数”。
个人觉得可以提一句,此种函数为子采样函数,然后再介绍定义。

ch3 p36

过拟合的标准定义为:给定一个假设空间H,一个假设h 属于H,如果存在其他的假设h
属于H, 使得在训练样例上h 的损失比h 小,但在整个实例分布上h 比h 的损失
小,那么就说假设h 过度拟合训练数据[?]。


这里h应该是两个不同的概念,能否用不同的标识,否则容易造成误解

文字描述&关键内容修订建议

  • 1. ch1 page1 “要通过真正地通过图灵测试” -> "要真正地通过图灵测试"
  • 2. ch1 page2 "由大量的节点(或称“神经元”,或“单元”)和之间相互联接构成" -> "由大量的节点(或称“神经元”,或“单元”)之间相互联接构成"
  • 3. ch1 page2 "甚至在很多的任务上比算法重要" -> “甚至在很多的任务上比算法更重要”
  • 4. ch2 page9 "一个标量c与矩阵A乘积为A的每个元素是A的相应元素与c的乘积" -> "一个标量c与矩阵A乘积为cA的每个元素是A的相应元素与c的乘积"
  • 5. ch2 page10 "一个n × n的对角矩阵矩阵A满足" -> "一个n × n的对角矩阵A满足"
  • 6. ch2 page10 "n × n的对角矩阵矩阵A" -> "n × n的对角矩阵A"
  • 7. ch2 2.1 建议增加下特征值/特征向量,可逆矩阵,行列式,矩阵求导,常见基本初等函数求导示例等内容(有些内容在2.5中,建议调整到2.1)
  • 8. ch2 page12 2.24等式右边两项颠倒下顺序?
  • 9. ch2 page12 2.25式 tr 在前面并未介绍
  • 10. ch2 2.2章节 “数学优化” -> “数值优化”?尤其在第二段刚开始描述是“数值优化问题的定义为”,后面同样也出现了数值优化说法,建议统一成更为常见的数值优化叫法
  • 11. 对 R 和 Z (可能还有其他符号)并未说明,也许需要有一个字符集说明?
  • 12. ch2 page13 “离散优化问题的求解一般都是比较困难,优化算法的复杂度都比较高。” -> “离散优化问题的求解一般都比较困难,优化算法的复杂度都比较高。”
  • 13. ch2 page13 整数规划部分也仿照组合优化部分给一些典型的例子?
  • 14. ch2 page14 “有约束条件的约束问题常常可以通过拉格朗日乘数转化为非约束问题。” -> “有约束条件的约束优化问题常常可以通过拉格朗日乘子法转化为无约束优化问题。” (or 拉格朗日乘数法)
  • 15. ch2 page15 “所对于所有的x” -> "对于所有的 x"
  • 16. ch2 page15 定理2.2 二阶导表达式错误
  • 17. ch2 page16 “有一阶必要性定理可知∇f(x)则” -> "有一阶必要性定理可知∇f(x)=0,则"
  • 18. ch2 page16 “如果顺利的话序列,(xn)收敛到局部最优解x∗。” -> “如果顺利的话序列(xn)收敛到局部最优解x∗。”
  • 19. ch2 page17 如果可以对牛顿法多展开介绍下就更好了,甚至涵盖 BFGS,LBFGS,OWLQN 等优化方法。另外,共轭梯度法前面提了一句,是否也加一些内容?
  • 20. ch2 2.3章节中“实验”和“试验”说法统一下吧
  • 21. ch2 page18 “随机事件(或简称事件)指的是一个被赋与机率的事物集合” -> “随机事件(或简称事件)指的是一个被赋予概率的事物集合”
  • 22. ch2 page18 “概率表示对一个随机事件发生的可能性大小” -> "概率表示一个随机事件发生的可能性大小"
  • 23. ch2 page19 随机变量 X 的符号都用斜体吧
  • 24. ch2 page21 “若随机变量X 服从一个位置参数为µ和σ”->“若随机变量X 服从一个未知参数为µ和σ”
  • 25. ch2 page23 多项分布定义部分重复给出了二项分布定义,应该没必要,删了吧,直接到“把二项分布推广到随机向量,就得到了多项分布。假设一个袋子中装了很 XXXX”
  • 26. ch2 page23 式2.57 p 改为 θ?
  • 27. ch2 page23 式2.58 gamma 函数 Γ(x) 的定义给下?比如在右侧补充下?
  • 28. ch2 page23 “从这种表示形式和Dirichlet分布类似” -> "这种表示形式和Dirichlet分布类似"
  • 29. ch2 page23 既然最后提到 Dirichlet分布,不妨也在合适的位置介绍下?
  • 30. ch2 2.4章节很多本来是下标,但没有正确呈现出来,如 xi,xj
  • 31. ch2 page26 I(X) 是什么意思,要给出解释吧?
  • 32. ch2 page27 2.4.2章节英文描述翻译成中文吧?
  • 33. ch2 page27 2.4.2章节DKL(p∥q) 要给出解释吧?
  • 34. ch2 page29 "在1844-1845年研究种群数量的增长模型时提出的命名的"->"在1844-1845年研究种群数量的增长模型时提出命名的"
  • 35. ch2 page 29 σ(x) 第一次使用时,并未明确说明就是 logistic 函数的表示方法,反而是在其下面解释的:一般使用标准logistic函数(记为σ(x))
  • 36. ch2 page29 式2.90是空的
  • 37. ch3 page33 “有监督学习” 使用粗体吧,与下面的 item 风格保持一致
  • 38. ch3 page33 3.1.1章节可以提下序列标注?
  • 39. ch3 page34 “降低对标记数据数量的要求”->"降低对标注数据数量的要求"
  • 40. ch3 page35 “yi 也也可以看成是真实类别的分布”->“yi 也可以看成是真实类别的分布”
  • 41. ch3 page36 过拟合的定义中两个 h 没有区分开
  • 42. ch3 page36 “为了解决过拟合问题,一般在经验风险最小化的原则上上加参数的正则化”->“为了解决过拟合问题,一般在经验风险最小化的原则上加上参数的正则化”
  • 43. ch3 page36 式3.14 L2范数不需要加上标
  • 44. ch3 page37 如果能增加更多 L1和 L2范数的原理和对比介绍就更好了
  • 45. ch3 page37 在前文中“样本”还被描述成“实例”,也许可以统一叫法,或者在“样本”介绍时说明下
  • 46. ch3 page38 “数据的原始表示转换为。” 转换成什么呢?
  • 47. ch3 page39 "在机器学习,搜索步长α中也叫作学习率(Learning Rate)。"->"在机器学习中,搜索步长α也叫作学习率(Learning Rate)。"
  • 48. ch3 page40 "Mini-Batach"->"Mini-Batch"
  • 49. ch3 page40 Mini-Batch 兼顾随机和批量方法优点,但是前文并未提及批量方法优点是什么。另外,SGD 方法的不足也可以提下,这样说 Mini-Batch 是一种折中方法逻辑更清晰
  • 50. ch3 page40 线性搜索和自适应学习率如果能有更详细介绍,或者给出参考资料更好
  • 51. ch3 page41~42 可以介绍下为什么 动量法、adagrad、adadelta有效,以及适用什么场景?
  • 52. ch3 page42 RMSprop、Adam等也许也可以提下?
  • 53. ch3 page43、47、50 “给定N 给样本”->"给定N 个样本"
  • 54. ch3 page46 式3.47 分子少了右括号
  • 55. ch3 page47 式3.54 为空
  • 56. ch3 page48 式3.59 使用 λ 表示学习率,而前文中一直是 a,最好统一下?
  • 57. ch3 page48 “空间中的存在一些区域” 不通顺
  • 58. ch3 page48 多分类通过二分类实现及存在缺陷,如果通过直观的图呈现出来更佳
  • 59. ch3 page49 “对比公式3.65中的两类分类判别函数” 这里的公式3.65标错了吧
  • 60. ch3 page49 softmax 回归最后是否提一句和最大熵模型推到出来的后验概率形式一致
  • 61. ch3 page50 “采样梯度下降法”->"采用梯度下降法"
  • 62. ch3 page51 “其中,I()为指示函数。” 频繁的出现,也许没必要?
  • 63. ch3 page52 "决策树模型可以读性好,具有描述性"->"决策树模型可读性好,具有描述性"
  • 64. ch3 page53 式3.82漏掉了 p(c) ,先验概率还是不能省略的,除非显式说明各类别出现概率均等
  • 65. ch3 page54 公式 3.83 给的太直接了,很难理解,且缺少一些解释
  • 66. ch3 page56 “正确率和召回率是广泛用于信息检索和统计学分类领域的两个度量”-> "准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量"
  • 67. ch3 page56 “F1 值是根据正确率和召回率二者给出的一个综合的评价指标”->“F1 值是根据准确率和召回率二者给出的一个综合的评价指标"
  • 68. ch3 page58 “1960年代,,”-> "1960年代,"
  • 69. ch3 page57 3.4 章节可以考虑加下奥卡姆剃刀原理?
  • 70. ch4 页面标号没有和 ch3 连上
  • 71. ch4 page49 “感知器也可以看出是线性分类器的一个经典学习算法。”->"感知器也可以看做是线性分类器的一个经典学习算法。"
  • 72. ch4 page51 公式4.3,"w∗Txi <0 当yi <0." -> "w∗Txi <=0 当yi <0."
  • 73. ch4 page51 "具体的学习过程如算法5.2所示。"->"具体的学习过程如算法4.1所示。"
  • 74. ch4 page51 算法4.1 第6行多了一个逗号
  • 75. ch4 page52 “具体的学习过程如算法5.2所示。”->“具体的学习过程如算法4.1所示。”
  • 76. ch4 page53 “如果训练集不 s 是线性可分的” ->"如果训练集不是线性可分的"
  • 77. ch4 page53 "算法5.2"->"算法4.1"
  • 78. ch4 page54 “比如输出是序列或来其它结构化的形式。”-> "比如输出是序列或者其它结构化的形式。"
  • 79. ch4 page57 公式4.15第二行少了一个左括号
  • 80. ch4 page58 算法4.3 第8、9行少了φ
  • 81. ch5 page75 公式5.13 未写完整
  • [ ]
  • 未完待续

ch5的5.4(87页)

Theano [Bergstra et al., 2010]和Tensorflow [Abadi et al., 2016]都采用了符号微分的方法进行自动求解梯度。

该说法有误. Theano和Tensorflow均采用反向模式自动微分 (Reverse-mode Automatic Differentiation), 相关内容可参考: 1, 2, 3, 4.

概率图11.3节推断

请问这一章是还没有写完吗?第二段"在图模型中,我们可以利用"然后没下文了

第10章若干修改

  • 143页,10.1节最后一句:漏掉了连字符
    原文:n元语言模型的困惑度范围一般为501000之间
    修改:50-1000

  • 144页,第2行:漏掉了"属于"符号
    原文:第 k 列向量 m_{k} R^{d1}表示词汇表中第 k 个词对应的稠密向量
    修改:m_{k} \in R^{d1}

  • 159页,第3行:漏了"的"
    原文:这两个模型是著名的词嵌入学习工具 word2vec 中包含两种模型
    修改:这两个模型是著名的词嵌入学习工具 word2vec 中包含两种模型

  • 161页,倒数第2行,10.3节的负采样部分:对负样本数量的描述,小规模应改为大规模
    原文:通常小规模数据 k 的取值范围在5~20,而规模数据 k 可以非常小2~5
    修改:通常小规模数据 k 的取值范围在5~20,而规模数据 k 可以小至2~5
    Mikolov原文:Our experiments indicate that values of k in the range 5–20 are useful for small training datasets, while for large datasets the k can be as small as 2–5. [arXiv 1310.4546]

关于ch1的部分typo

第三页:
【智能系统如何外部刺激信息(视觉和语音等)进行感知和加工】应为
【智能系统如何外部刺激信息(视觉和语音等)进行感知和加工】
第八页:
【Kunihiko Fukishima(福岛邦彦)】应为:
【Kunihiko Fukushima(福岛邦彦)】

语句不通顺等

  • 绪论第二段开头:“要通过真正地通过图灵测试”
  • 2.3.1节“数学小知识 | 笛卡儿乘积”内花色符号缺失{, , , }
  • 2.3.2节开头:“随机事件(或简称事件)指的是一个被赋机率的事物集合”
  • 2.4.1节公式中有大量下标没有处理,“对应的被加数0 logb 0的值将会是0”
  • 2.4.2节交叉熵的定义为何是英文
  • 7.3节第二段开头:“既然增加深度可以极大前馈神经网络的能力”

Typo in Ch12.pdf

θ 是需要“实现”估计出来的
应该是 需要“实验”吧?

chap-卷积神经网络Lenet5卷积层滤波器个数

卷积神经网络章节,LeNet-5的介绍中,第4条C3层使用60个5X5滤波器,得到16组大小为10X10的特征映射。上一层汇聚层神经元个数为6X14X14个,这一层不应该是6X16=96个5X5的滤波器才能得到16组大小为10X10的特征映射吗?

LeNet-5模型的C3卷积层处理

卷积神经网络里面的LeNet-5模型的C3卷积层处理的时候,上一层S2的输出数据是6组1414的特征,本层C3输出的时候是16组特征,这里能不能详细讲解一下,
我的理解是,按照梯度计算的表来处理,C3输出的第一组特征是和S2的输出的第1,2,3组特征有关的,也就是说,3组14
14的特征,分别对应卷积核w1,w2,w3做卷积操作,其中w1 w2 w3均为55,最后不是应该得到三组1010的特征吗,为啥最后只有一个特征。
中间是不是还有什么处理。大神能不能详细讲解一下。

ch3 p37

数据的原始表示转换为。

感觉这句话还没结束?

错别字

P225, 倒数第二段第一句,”但是通过神经网络语言模型来预训练词嵌入由两个不足“-》由应该是有?

语句通顺问题

第四章 P78
“误差项δ 来表示第l层的神经元对最终误差的影响,也反映了最终的输出对第l 层的神经元对最终误差的敏感程度。”

ch06 6.2节末尾表述错误

公式6.8中,第l − 1层的所有特征映射都经过滤波器得到一个第l层的
一组特征映射X(l,k)。也就是说,第l 层的每一组特征映射都依赖于第l 层的所
有特征映射,相当于不同层的特征映射之间是全连接的关系。

--> ...应该是“第l 层的每一组特征映射都依赖于第l - 1层的所
有特征映射”...

pdf 排版有些怪怪的

个人感觉,排版的空间利用效率不高,阅读体验不太好,打印出来也很浪费纸张

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.