Git Product home page Git Product logo

caiman's Projects

- icon -

东方网一致行动人爬虫

ciyunzhizuoxiangjie icon ciyunzhizuoxiangjie

这个文件是关于如何制作词云的详细步骤,数据使用的是汽车之家创酷车型的2019年全年的帖子

dongfang icon dongfang

本文爬取东方财富网十大股东的数据,代码也可以迁移到该网站的所有版块,另外最后也可以开启多进程,经过测试该网站没有反扒的措施,比较容易爬取

douban icon douban

豆瓣读书的爬虫代码,豆瓣这种网页属于小白网页,随便怎么爬,但是为了纪念我这个新手,还是将这个代码上传把

jueceshu icon jueceshu

使用Python的普通方法或者使用pandas库写决策树

knn icon knn

采用pandas库进行KNN算法的创建;另外采用Python的自带基本函数对KNN算法进行创建

maoyan icon maoyan

这是一个用猫眼电影网站练习正则表达式的爬虫文件

pandas-data-analyse icon pandas-data-analyse

使用pandas进行数据分析的各式各样的操作,这是关于pandas学习的2000行代码,用以日后查询,其中的内容包括常用的excel功能,同时里面还加入了Python画图的库

pythonexercise icon pythonexercise

Python 编程练习题 100 例(源码),实例在 Python 3.6 环境下测试通过。

qichezhijiakoubei icon qichezhijiakoubei

这个爬虫是爬取汽车之家中口碑的相关内容,主要是爬取网页中左下角的那个买车用途,并且最终进行评论的数据清理工作

r-storage icon r-storage

R语言的一系列操作,关于如何使用R语言进行数据清洗,画图的一系列教程

r-suns icon r-suns

使用R语言处理suns数据的一些操作

redianshijian icon redianshijian

2018年发表的文章‘热点事件’是否影响主导公众的社会关注的代码,文件,全套资料

renlianshibieapi icon renlianshibieapi

这个库主要是为了标记人脸识别的其中一个API的库,可以根据这个API返回人脸的一些信息

shangshigongsi icon shangshigongsi

2019年论文‘超级个体’是选择市场还是国家论文的全套资源

tf-idf-qichezhijia icon tf-idf-qichezhijia

这个库主要包含三大板块:第一:爬取汽车之家论坛帖子,并且破解字体反爬,获得文本内容;第二:可以对excel文件按照月份进行文件分隔;第三按月对语料进行tf-idf算法的运算,备选文件中也有产生词云的功能

weiboyuliaochuli icon weiboyuliaochuli

本库首先使用selenium对微博起亚的官方微博进行爬虫,形成CSV格式的文件,而后对其中的内容进行车型筛选,获取相应的数据文件

weixin icon weixin

通过微信公众平台这一个api接口进入,爬取微信公众号文章,本人设置的sleeptime为4-6的随机数最高可以运行5个小时,爬取文章数量为3500篇,大约是三个月的数量

yongkangwenshu icon yongkangwenshu

这个项目是导师的某一个需求,导师打算从三万份文书中找出每一份文书中的被告、原告、借款金额、还款数量、被告和原告的数量,但是这些文书里面很杂乱,文书内容也很乱,这个文件是关于对这些东西进行模式识别的尝试,结果还不错

zhihu icon zhihu

使用scrapy框架爬取知乎网站中某一个大V下面的所有联系人的爬虫程序

zidonbaobiao icon zidonbaobiao

本项目是用以对每一个月的汽车之家的各个类型的汽车在该论坛的论坛帖子数量总数、精品帖子总数、帖子获取的时间,帖子的发布者,帖子的原始URL,帖子的独一无二的id进行抓取,而后使用pandas进行清洗,产生上一个月和本月的数据报表,用以对汽车广告战略投放情况进行分析

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.