为提高答疑效率,便于问题归档,特建立这个项目。请大家在Issues中提出自己的问题。
- 同学提问,助教答疑(固定时间查看问题并回答,其他时间看到的话,也会及时回复)
- 同学提问,其他同学回答(回答较优较多者,给予加分奖励)
之后,助教会将大家的提问以及回答整理到对应章节的文件夹中。
请在提问和回答后添加自己的名字,方便后期统计
- 随堂作业
- 提问/回答
- 教材改错
- 教材课后习题
注意
- 提问/回答和教材改错以Issues统计为准
- 教材课后习题,如有同学志愿提供答案,请私聊助教(刘婷婷、李磊)
为提高答疑效率,便于问题归档,特建立这个项目。请大家在Issues中提出自己的问题。
之后,助教会将大家的提问以及回答整理到对应章节的文件夹中。
请在提问和回答后添加自己的名字,方便后期统计
注意
1.是否已经阅读过所在章节的FAQ?
否(请阅读后将此处改为是,此处为否的问题将以较低优先级处理)
2.问题在PPT中出处(章节,页码,截图)?
例如 第3章,采样,15页,图片
3.问题在教材中出处(章节,页码,截图)?
请找到所涉及知识点在教材中的出处或归属章节
4.从网络搜索得到三篇参考资料并自学,请在下方附上网址。
https://blog.csdn.net/sinat_27612639/article/details/51924613
5.综合学习教材、PPT、网络资源后仍然抱有疑问的原因?
教材疏漏、用到外部知识、数学推导的中间过程需要更详细地展开;等等
1.是否已经阅读过所在章节的已发现问题列表?
否
2.错误在PPT中出处(章节,页码,截图)?
3.错误在教材中出处(章节,页码,截图)?
教材第150页 第一句话中的 如表9.1 应该改为 如表8.1
何诗雨
1.是否已经阅读过所在章节的FAQ?
是
2.问题在PPT中出处(章节,页码,截图)?
3.问题在教材中出处(章节,页码,截图)?
P83 5.4.2 Misra-Gries算法分析
老师我想问一下,为什么数据流中不同元素的个数远大于(m-m')/k时有较好的频数估计,而不是数据流中不同元素个数小于(m-m')/k时,元素计数器的减少操作次数变少时对频数有更好的估计。
4.从网络搜索得到三篇参考资料并自学,请在下方附上网址。
https://www.jianshu.com/p/69a9e2c82231
https://www.cnblogs.com/super-zhang-828/p/7353217.html?utm_source=debugrun&utm_medium=referral
http://burningcloud.cn/article/4/index.html
5.综合学习教材、PPT、网络资源后仍然抱有疑问的原因?
可能表达的意思不太清楚
1.是否已经阅读过所在章节的FAQ?
是
2.问题在PPT中出处(章节,页码,截图)?
无
3.问题在教材中出处(章节,页码,截图)?
教材157页
4.从网络搜索得到三篇参考资料并自学,请在下方附上网址。
https://baike.baidu.com/item/%E7%91%9E%E5%88%A9%E5%95%86%E8%BF%AD%E4%BB%A3%E6%B3%95/19069725?fr=aladdin
https://blog.csdn.net/archielau/article/details/7636132
https://xueshu.baidu.com/usercenter/paper/show?paperid=6cd5c89265cdd3341b248913d31eb83d&site=xueshu_se
5.综合学习教材、PPT、网络资源后仍然抱有疑问的原因?
怎么确定初始向量和瑞利商迭代法最终收敛到的特征值间的关系,比如想要求解最大特征值,初始向量有什么限制吗?
汤琼
是
第五章,82页
(此处是章可儿同学提出的我认为比书上和wiki上都更正确的版本)
https://en.wikipedia.org/wiki/Misra%E2%80%93Gries_summary
我认为这个Misra-Gries在临界情况没有处理好。比如书上和PPT中例子明明k=3,有三个计数器。但由于采用的抛弃策略过于保守,所以永远只用到两个计数器。(一用到三个计数器就立即减1并删除)对尝试新加入的没有任何措施。
可以在计数器刚满的时候不立即减1删除。而是在下一个值来、当前计数器已经放不下的时候再进行减一操作。如果减一后无可删项,则丢弃当前值,如果有可删项,删去所有可删项,再将当前值加入。
以作业中例子为例,按教科书以及PPT上的算法。永远只用到两个计数器(使用三个计数器后就立马减一删除了),所以得到的结果是F={(a,1)}
按我认为更优的算法,过程为
我认为我的计数方式才是真正实现三个计数器最大程度使用的方式。书上和PPT上都只有两个计数器被“真正”使用了
1.是否已经阅读过所在章节的已发现问题列表?
是
2.错误在PPT中出处(章节,页码,截图)?
第8章,SVD,25页,r应当是r+1
3.错误在教材中出处(章节,页码,截图)?
无
陈丘轲
1.是否已经阅读过所在章节的FAQ?
是
2.问题在PPT中出处(章节,页码,截图)?
3.问题在教材中出处(章节,页码,截图)?
P83 5.4.2 Misra-Gries算法分析
这个解答中的k是指有k个counter,还是指最后生成的summary的长度为k
如果有k个counter的话,最后不一定生成的summary的长度为k,有可能小于k
我理解的是有k个counter,在最极端的情况就是数据流每次都是一个新的,这样的话,每读入k个就一起清零,如果元素出现次数大于n/k的话,该元素的计数至少为1,被留下
4.从网络搜索得到三篇参考资料并自学,请在下方附上网址。
https://www.jianshu.com/p/69a9e2c82231
https://people.csail.mit.edu/rrw/6.045-2017/encalgs-mg.pdf
https://en.wikipedia.org/wiki/Misra%E2%80%93Gries_summary#CITEREFCormode2014
5.综合学习教材、PPT、网络资源后仍然抱有疑问的原因?
不太理解这边元素出现次数>$\frac{n_1}{k}$的k的具体指代,这里的k是counter个数还是summary个数?这里的出现次数>$\frac{n_1}{k}$是我前面写的那样理解的吗?
王文清
1.是否已经阅读过所在章节的已发现问题列表?
是
2.错误在PPT中出处(章节,页码,截图)?
无
3.错误在教材中出处(章节,页码,截图)?
教材 P81 例5.6的解
“元素12的频数大于4”应该为“元素12的频数大于等于4”
章可儿
1.是否已经阅读过所在章节的已发现问题列表?
是
2.错误在教材中出处(章节,页码,截图)?
教材第4章 第65页 图4.10
之前跟助教讨论过,认为minhash值应该分别是1,4,1,0
孙印政
1.是否已经阅读过所在章节的已发现问题列表?
是
2.错误在PPT中出处(章节,页码,截图)?
http://dase.ecnu.edu.cn/mgao/teaching/DataSci_2020_Fall/slides/9_decompisition.pdf
22 / 33
周子彦
1.是否已经阅读过所在章节的已发现问题列表?
是
2.错误在PPT中出处(章节,页码,截图)?
无
3.错误在教材中出处(章节,页码,截图)?
第五章, 数据流模型及频繁项挖掘,P82-83 例5.7
如果是按照书上算法的逻辑,如果当一个新出现元素到达时恰好还剩最后一个空位,这个新出现元素不会插入计数器中,直接开始else中将计数器每个值减1后将值为0的元素从计数器中删除。所以,例5.7,第四个元素c到达时,|keys(F)|=k-1,将不会将c元素加入计数器,所以82页的解释不对,并且83页表5.1中的第五行将没有插入,并且没有第一个F={(a,2),(b,1)}。同理,83页表5.1第七行没有插入e,也没有第一个F={(a,1),(d,1),(e,1)}
但是ppt上的算法逻辑和书上的不太一样,ppt是无论如何计数器当前是否已经满了,先将新出现的元素插入计数器中,之后再检查。此时表5.1就是正确的。
史浩洋
1.是否已经阅读过所在章节的已发现问题列表?
是
2.错误在PPT中出处(章节,页码,截图)?
3.错误在教材中出处(章节,页码,截图)?
P85 第五章 5.5Count-sketch算法 定理5.2证明
“定义ci为简单抽样后元素ai的频数”应该为“定义gi为简单抽样后元素ai的频数”
梁辉
1.是否已经阅读过所在章节的已发现问题列表?
是
2.错误在PPT中出处(章节,页码,截图)?
无
3.错误在教材中出处(章节,页码,截图)?
教材P82的Algorithm5.1: Misra-Greis 算法
计数器保持在k个,觉得应该是 if|keys(F)| <= k−1 then
即集合中有k-1个计数器时仍可以增加计数器
章可儿
1.是否已经阅读过所在章节的已发现问题列表?
否(请阅读后将此处改为是,此处为否的问题将以较低优先级处理)
2.错误在PPT中出处(章节,页码,截图)?
例如 第3章,采样,15页,图片
3.错误在教材中出处(章节,页码,截图)?
请找到所涉及知识点在教材中的出处或归属章节
1.是否已经阅读过所在章节的FAQ?
是
2.问题在PPT中出处(章节,页码,截图)?
3.问题在教材中出处(章节,页码,截图)?
P91 count min sketch算法
提问
tutorial 5的第二题这边
老师我想问一下,为什么这边f2的估计值是2。我计算每个元素hash值得到第二个hash函数H2对于元素的hash只会将2映射到3的位置,而数据流中只出现了一次2.
元素2经过三个hash映射到的位置分别是 0 3 2
对于计算频数估计值=min[2,1,4]=1
我想问一下我这样的计算过程哪边出错了呀 我这样计算出来f2的估计值是1
4.从网络搜索得到三篇参考资料并自学,请在下方附上网址。
https://en.wikipedia.org/wiki/Count%E2%80%93min_sketch
https://zhuanlan.zhihu.com/p/84688298
https://blog.csdn.net/pipisorry/article/details/64126199
5.综合学习教材、PPT、网络资源后仍然抱有疑问的原因?
不大理解计算过程中哪里出了问题
王文清
sss
1.是否已经阅读过所在章节的已发现问题列表?
否
2.错误在PPT中出处(章节,页码,截图)?
3.错误在教材中出处(章节,页码,截图)?
第七章 P130 例7.19中状态1、2、3、4应改为状态0、1、2、3
梁辉
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.