ecnudase / dasealg_2020_fall Goto Github PK

View Code? Open in Web Editor NEW

5.0 9.0 3.0 12 KB

dasealg_2020_fall's Introduction

DASEAlg_2020_Fall

为提高答疑效率，便于问题归档，特建立这个项目。请大家在Issues中提出自己的问题。

答疑方式：

同学提问，助教答疑（固定时间查看问题并回答，其他时间看到的话，也会及时回复）
同学提问，其他同学回答（回答较优较多者，给予加分奖励）

之后，助教会将大家的提问以及回答整理到对应章节的文件夹中。

参考模板

提问模板（尽量写清楚问题出处及疑问） #1
教材改错模板 #4

请在提问和回答后添加自己的名字，方便后期统计

课程平时成绩

随堂作业
提问/回答
教材改错
教材课后习题

注意

提问/回答和教材改错以Issues统计为准
教材课后习题，如有同学志愿提供答案，请私聊助教（刘婷婷、李磊）

dasealg_2020_fall's People

Contributors

Stargazers

Watchers

Forkers

ttliu-kiwi chenqiuke

dasealg_2020_fall's Issues

提问模板

1.是否已经阅读过所在章节的FAQ？
否(请阅读后将此处改为是，此处为否的问题将以较低优先级处理)

2.问题在PPT中出处(章节，页码，截图)?
例如第3章，采样，15页，图片

3.问题在教材中出处(章节，页码，截图)?
请找到所涉及知识点在教材中的出处或归属章节

4.从网络搜索得到三篇参考资料并自学，请在下方附上网址。
https://blog.csdn.net/sinat_27612639/article/details/51924613

5.综合学习教材、PPT、网络资源后仍然抱有疑问的原因？
教材疏漏、用到外部知识、数学推导的中间过程需要更详细地展开；等等

教材改错_29

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?
无

3.错误在教材中出处(章节，页码，截图)?
书56页，如图，P(X_i=0)应改为P(X_i=1)

杜涵悦

教材改错_38

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?
无

3.错误在教材中出处(章节，页码，截图)?
13章，267页 "如果顶点vi社区1"改为"如果顶点vi在社区1"

何佳喧

教材改错_27

1.是否已经阅读过所在章节的已发现问题列表？
是(请阅读后将此处改为是，此处为否的问题将以较低优先级处理)

2.错误在PPT中出处(章节，页码，截图)?
ppt是对的，lecture9,

3.错误在教材中出处(章节，页码，截图)?
请找到所涉及知识点在教材中的出处或归属章节
教材第10章，196页第三行，不是莱布尼茨连续，是Rudolf Lipschitz Continuity.

池欣宁

教材改错_32

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?
8_SVD PPT 22页，如图应为D^2

3.错误在教材中出处(章节，页码，截图)?
无

杜涵悦

教材改错_37

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?
无

3.错误在教材中出处(章节，页码，截图)?
13章，260页 “随即图”改为“随机图”

杜涵悦

教材改错_21

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?
PPT EM算法第103张 E-step 中$Pi_M$和$Pi_N$未给出具体内容
可参考书第106页上方公式给出类似定义

3.错误在教材中出处(章节，页码，截图)?
否

汤琼

教材改错_28

1.是否已经阅读过所在章节的已发现问题列表？
是(请阅读后将此处改为是，此处为否的问题将以较低优先级处理)

2.错误在PPT中出处(章节，页码，截图)?
ppt无

3.错误在教材中出处(章节，页码，截图)?
第10章，194页

这里，“如图10.5(a),10.5(b)所示，随机梯度下降...“这里应该是梯度下降，不是SGD,后面才是SGD的特点。
池欣宁

教材改错_31

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?
8_SVD PPT 17页，如图应为特征向量

3.错误在教材中出处(章节，页码，截图)?
无

杜涵悦

教材找错_18

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?
无

3.错误在教材中出处(章节，页码，截图)?
（1）5.4.1节，82页，如图伪代码少了对同时有“delete”和“add”时的“add”的步骤。

（2）5.5.1节，85页，如图，c_i应改为g_i

（3）5.5.3节，90页，如图所示，伪代码处h_t改为g_t

杜涵悦

教材找错_35

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?
无

3.错误在教材中出处(章节，页码，截图)?
第十一章217页这一行解释有误

张硕闻

教材改错_33

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?
8_SVD PPT 26页，如图应为A=VD^-1U^T

3.错误在教材中出处(章节，页码，截图)?
无

杜涵悦

教材改错_26

1.是否已经阅读过所在章节的已发现问题列表？
否

2.错误在PPT中出处(章节，页码，截图)?

3.错误在教材中出处(章节，页码，截图)?
教材第150页第一句话中的如表9.1 应该改为如表8.1
何诗雨

教案找错_8

1.是否已经阅读过所在章节的FAQ？
是

2.问题在PPT中出处(章节，页码，截图)?
Chapter3-sampling 蓄水池采样 Page26

我认为x应该是被抽出的元素的编号，而非生成随机数的上界，x应该是落在[1,i)之间的一个随机数

3.问题在教材中出处(章节，页码，截图)?
无，书中的算法是正确的

孙秋实

【提问】

1.是否已经阅读过所在章节的FAQ？
是

2.问题在PPT中出处(章节，页码，截图)?

3.问题在教材中出处(章节，页码，截图)?
P83 5.4.2 Misra-Gries算法分析

老师我想问一下，为什么数据流中不同元素的个数远大于(m-m')/k时有较好的频数估计，而不是数据流中不同元素个数小于(m-m')/k时，元素计数器的减少操作次数变少时对频数有更好的估计。

4.从网络搜索得到三篇参考资料并自学，请在下方附上网址。
https://www.jianshu.com/p/69a9e2c82231
https://www.cnblogs.com/super-zhang-828/p/7353217.html?utm_source=debugrun&utm_medium=referral
http://burningcloud.cn/article/4/index.html

5.综合学习教材、PPT、网络资源后仍然抱有疑问的原因？
可能表达的意思不太清楚

【提问】分布式水库抽样算法时间复杂度

1.是否已经阅读过所在章节的FAQ？
是

2.问题在PPT中出处(章节，页码，截图)?
无

3.问题在教材中出处(章节，页码，截图)?
第二章第27页

4.从网络搜索得到三篇参考资料并自学，请在下方附上网址。
并未找到相关解答

5.综合学习教材、PPT、网络资源后仍然抱有疑问的原因？
对分布式水库抽样算法的时间复杂度有疑问
因为后续有重采样过程，感觉时间复杂度应该比O(max(N_i))高。

张硕闻

教材改错_23

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在教材中出处(章节，页码，截图)?
第4章，哈希技术，56页，

计算误判率的公式中应该是(P(Xi=1))^k

孙印政

【提问】

1.是否已经阅读过所在章节的FAQ？
是

2.问题在PPT中出处(章节，页码，截图)?
无

3.问题在教材中出处(章节，页码，截图)?
教材157页

4.从网络搜索得到三篇参考资料并自学，请在下方附上网址。
https://baike.baidu.com/item/%E7%91%9E%E5%88%A9%E5%95%86%E8%BF%AD%E4%BB%A3%E6%B3%95/19069725?fr=aladdin
https://blog.csdn.net/archielau/article/details/7636132
https://xueshu.baidu.com/usercenter/paper/show?paperid=6cd5c89265cdd3341b248913d31eb83d&site=xueshu_se

5.综合学习教材、PPT、网络资源后仍然抱有疑问的原因？
怎么确定初始向量和瑞利商迭代法最终收敛到的特征值间的关系，比如想要求解最大特征值，初始向量有什么限制吗？

汤琼

2.错误在PPT中出处(章节，页码，截图)?
无
3.错误在教材中出处(章节，页码，截图)?
第四章，第65页，第64页，例4.10，图4.10中的特征矩阵与图4.9（前一页）中的特征矩阵相比，并没有进行行重排，行对应的序号并没有变。所以这个例子有点让人费解。我感觉单看图4.10，例4.10中的min-hash值并没有错误。问题在于与图4.9相比，特征矩阵实际并没有进行行重排。
可参见例4.11.

教材/教案找错_6：圆形等距抽样不整除时k的舍入

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?
第3课ppt，采样，14/33页

3.错误在教材中出处(章节，页码，截图)?
第2章，采样，22页，例2.6

两者说法不一。我认为a)向下取整和b)四舍五入都可以实现圆形等距抽样中的“等概率”。ppt中不必强调需要round down

教材找错_2

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?

3.错误在教材中出处(章节，页码，截图)?
第三章，第44页，感觉这里是运行n次Morris算法，并不是Morris+算法。

教材找错_1

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?

3.错误在教材中出处(章节，页码，截图)?
第二章，第22页，应该是当N不能被n整除时，不是k

【提问】Misra-Gries算法对计数器的利用率低下

1.是否已经阅读过所在章节的FAQ？

是

2.问题在PPT中出处(章节，页码，截图)?

第4章，19/39页

3.问题在教材中出处(章节，页码，截图)?

第五章，82页
（此处是章可儿同学提出的我认为比书上和wiki上都更正确的版本）

4.从网络搜索得到三篇参考资料并自学，请在下方附上网址。

https://en.wikipedia.org/wiki/Misra%E2%80%93Gries_summary

5.综合学习教材、PPT、网络资源后仍然抱有疑问的原因？

我认为这个Misra-Gries在临界情况没有处理好。比如书上和PPT中例子明明k=3，有三个计数器。但由于采用的抛弃策略过于保守，所以永远只用到两个计数器。（一用到三个计数器就立即减1并删除）对尝试新加入的没有任何措施。

我认为更好的解决方案是：

可以在计数器刚满的时候不立即减1删除。而是在下一个值来、当前计数器已经放不下的时候再进行减一操作。如果减一后无可删项，则丢弃当前值，如果有可删项，删去所有可删项，再将当前值加入。

以作业中例子为例，按教科书以及PPT上的算法。永远只用到两个计数器（使用三个计数器后就立马减一删除了），所以得到的结果是F={(a,1)}
按我认为更优的算法，过程为

我认为我的计数方式才是真正实现三个计数器最大程度使用的方式。书上和PPT上都只有两个计数器被“真正”使用了

补充特殊情况：

教材找错_10

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?
无
3.错误在教材中出处(章节，页码，截图)?
第二章抽样算法，第27页，应该是时间复杂度，少了一个字

张硕闻

教材改错_34

1.是否已经阅读过所在章节的已发现问题列表？
是
2.错误在PPT中出处(章节，页码，截图)?
第8章，SVD，25页，r应当是r+1
3.错误在教材中出处(章节，页码，截图)?
无

陈丘轲

教材找错_4

1.是否已经阅读过所在章节的已发现问题列表？
是
2.错误在PPT中出处(章节，页码，截图)?
无

3.错误在教材中出处(章节，页码，截图)?
第3章，尾概率不等式及其应用，45页

Ci 是对m个Morris算法输出结果的求和，所以第11行应该是1/m吧

【提问】

1.是否已经阅读过所在章节的FAQ？
是

2.问题在PPT中出处(章节，页码，截图)?

3.问题在教材中出处(章节，页码，截图)?
P83 5.4.2 Misra-Gries算法分析


这个解答中的k是指有k个counter,还是指最后生成的summary的长度为k
如果有k个counter的话，最后不一定生成的summary的长度为k,有可能小于k
我理解的是有k个counter,在最极端的情况就是数据流每次都是一个新的，这样的话，每读入k个就一起清零，如果元素出现次数大于n/k的话，该元素的计数至少为1，被留下
4.从网络搜索得到三篇参考资料并自学，请在下方附上网址。
https://www.jianshu.com/p/69a9e2c82231
https://people.csail.mit.edu/rrw/6.045-2017/encalgs-mg.pdf
https://en.wikipedia.org/wiki/Misra%E2%80%93Gries_summary#CITEREFCormode2014

5.综合学习教材、PPT、网络资源后仍然抱有疑问的原因？
不太理解这边元素出现次数>$\frac{n_1}{k}$的k的具体指代，这里的k是counter个数还是summary个数？这里的出现次数>$\frac{n_1}{k}$是我前面写的那样理解的吗？

王文清

教材改错_30

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?
无

3.错误在教材中出处(章节，页码，截图)?
书150页，解答与题目不符？？？

d杜涵悦

教材找错_17

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?
随机游走 P12
是

3.错误在教材中出处(章节，页码，截图)?
第七章，随机过程，P125

转移概率矩阵第二行前两个元素写反了
王文清

教材找错_12

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?
无

3.错误在教材中出处(章节，页码，截图)?
教材 P81 例5.6的解
“元素12的频数大于4”应该为“元素12的频数大于等于4”

章可儿

教材改错_24

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在教材中出处(章节，页码，截图)?
教材第4章第65页图4.10
之前跟助教讨论过，认为minhash值应该分别是1，4，1，0

孙印政

教材改错_39

1.是否已经阅读过所在章节的已发现问题列表？
是

2.错误在PPT中出处(章节，页码，截图)?
http://dase.ecnu.edu.cn/mgao/teaching/DataSci_2020_Fall/slides/9_decompisition.pdf
22 / 33

周子彦

教材找错_11

1.是否已经阅读过所在章节的已发现问题列表？
是
2.错误在PPT中出处(章节，页码，截图)?
无
3.错误在教材中出处(章节，页码，截图)?
第五章，数据流模型及频繁项挖掘，P82-83 例5.7

如果是按照书上算法的逻辑，如果当一个新出现元素到达时恰好还剩最后一个空位，这个新出现元素不会插入计数器中，直接开始else中将计数器每个值减1后将值为0的元素从计数器中删除。所以，例5.7，第四个元素c到达时，|keys(F)|=k-1，将不会将c元素加入计数器，所以82页的解释不对，并且83页表5.1中的第五行将没有插入，并且没有第一个F={(a,2),(b,1)}。同理，83页表5.1第七行没有插入e，也没有第一个F={(a,1),(d,1),(e,1)}