Git Product home page Git Product logo

76782875 / web-crawlers Goto Github PK

View Code? Open in Web Editor NEW

This project forked from innovationwh/web-crawlers

0.0 2.0 0.0 5.61 MB

Web crawlers Python-based 的初衷是希望大家在完成嵩老师课程后,动手实践。该项目所构建系统将为后续自然语言理解、新闻传播规律分析、深度舆论挖掘、信息预警等众多应用提供基础性数据。项目未来发展由嵩老师与所有实际贡献者共同决策。具体请阅读README.md文件。

License: GNU Affero General Public License v3.0

web-crawlers's Introduction

关于

Web crawlers Python-based 的初衷是希望大家在完成嵩老师课程后,通过网络合作,探讨“共赢、合理、适度”的合作模式,将所学知识更进一步的巩固、完善,学以致用,培养工程实践能力。

项目路线

  • 资讯爬取
  • 数据清洗
  • 资讯展示

技术要求

  • 爬虫采用Scrapy框架,7x24自动运行,单个纸媒爬取周期为24小时,CentOS系统
  • 各纸媒为单独爬虫模块,采用适当的反爬技术,考虑Robots协议
  • 信息存储采用MySQL或MongoDB或文件方式
  • 词云展示采用wordcloud等Python第三方库
  • 全系统采用Python语言,Web采用HTML5/CSS/JS,不要求使用框架

项目运作

  • 合理的爬取不同的纸媒,搭建具备商用潜力的7x24运行系统
  • 项目未来发展由老师与所有实际贡献者共同决策。
  • 所有权
    • 项目所有代码对实际贡献者开源,暂不考虑全开源(不打算开源部分,请勿在此提交)。
    • 采用CC协议,知识产权归创作者所有,老师可根据参与情况出具纸质参与证明。
  • 该项目所构建系统将为后续自然语言理解、新闻传播规律分析、深度舆论挖掘、信息预警等众多应用提供基础性数据。

纸媒资讯爬取与展示

baidu

有问题反馈

在使用中有任何问题,欢迎反馈给我们,可以用以下联系方式跟我们交流

捐助开发

在兴趣的驱动下,写一个的东西,有欣喜,也还有汗水,希望你喜欢我们的作品,同时也能支持一下。 当然,有钱捧个钱场(右上角的爱心标志,支持支付宝和PayPal捐助),没钱捧个人场,谢谢各位。

贡献者

欢迎 PR, 所有贡献者都将出现在这里,排名不分先后。

关于作者

  var ihubo = {
    nickName  : "INVATION",
    site : "https://bbs.aliyun.com/u.php?uid=1663576497774634"
  }

回到顶部

web-crawlers's People

Contributors

innovationwh avatar

Watchers

James Cloos avatar Eason avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.