Web crawlers Python-based
的初衷是希望大家在完成嵩老师
课程后,通过网络合作,探讨“共赢、合理、适度”
的合作模式,将所学知识更进一步的巩固、完善,学以致用,培养工程实践能力。
- 资讯爬取
- 数据清洗
- 资讯展示
- 爬虫采用Scrapy框架,7x24自动运行,单个纸媒爬取周期为24小时,CentOS系统
- 各纸媒为单独爬虫模块,采用适当的反爬技术,考虑Robots协议
- 信息存储采用MySQL或MongoDB或文件方式
- 词云展示采用wordcloud等Python第三方库
- 全系统采用Python语言,Web采用HTML5/CSS/JS,不要求使用框架
- 合理的爬取不同的纸媒,搭建具备商用潜力的7x24运行系统
- 项目未来发展由老师与所有实际贡献者共同决策。
- 所有权
- 项目所有代码对实际贡献者开源,暂不考虑全开源(不打算开源部分,请勿在此提交)。
- 采用CC协议,知识产权归创作者所有,老师可根据参与情况出具纸质参与证明。
- 该项目所构建系统将为后续自然语言理解、新闻传播规律分析、深度舆论挖掘、信息预警等众多应用提供基础性数据。
在使用中有任何问题,欢迎反馈给我们,可以用以下联系方式跟我们交流
-
邮件(wanghui626#dingtalk.com, 把#换成@)
-
QQ: 3291945589
-
QQ1: @Python实战战队
-
QQ2: @Python爬虫实战项目
在兴趣的驱动下,写一个的东西,有欣喜,也还有汗水,希望你喜欢我们的作品,同时也能支持一下。 当然,有钱捧个钱场(右上角的爱心标志,支持支付宝和PayPal捐助),没钱捧个人场,谢谢各位。
欢迎 PR, 所有贡献者都将出现在这里,排名不分先后。
- 北京晚报负责人
- 人民日报负责人
- **教育报负责人
- 南方日报负责人
- 网易新闻负责人
- 新京报负责人
- 返利网负责人
- 江南都市报负责人
- Science News负责人
- ChinaDaily负责人
- 大河报负责人
- 财新报负责人
- Science America负责人
- Science Journal负责人
- 读者文摘负责人
- 今日头条负责人
- 金融新闻网负责人
- 九江日报负责人
- 科技日报负责人
- 南昌晚报负责人
- 南京日报负责人
- 纽约书评负责人
- 青年报负责人
- 上海日报负责人
- 四川日报负责人
- 新京报负责人
- 华盛顿邮报负责人
- 燕赵晚报负责人
- **日报负责人
- **财经报负责人
- 中山日报负责人
- 武汉晚报负责人
- 新华每日电讯负责人
- 新快报负责人
- **教育报负责人
var ihubo = {
nickName : "INVATION",
site : "https://bbs.aliyun.com/u.php?uid=1663576497774634"
}