caiyunbin Goto Github PK
Name: caiman
Type: User
Company: shanghai university
Bio: stay hungry! stay foolish
Location: shanghai
Name: caiman
Type: User
Company: shanghai university
Bio: stay hungry! stay foolish
Location: shanghai
东方网一致行动人爬虫
这个文件是关于如何制作词云的详细步骤,数据使用的是汽车之家创酷车型的2019年全年的帖子
本文爬取东方财富网十大股东的数据,代码也可以迁移到该网站的所有版块,另外最后也可以开启多进程,经过测试该网站没有反扒的措施,比较容易爬取
豆瓣读书的爬虫代码,豆瓣这种网页属于小白网页,随便怎么爬,但是为了纪念我这个新手,还是将这个代码上传把
使用Python的普通方法或者使用pandas库写决策树
采用pandas库进行KNN算法的创建;另外采用Python的自带基本函数对KNN算法进行创建
这是一个用猫眼电影网站练习正则表达式的爬虫文件
关于MySQL连接的两个小文件
使用pandas进行数据分析的各式各样的操作,这是关于pandas学习的2000行代码,用以日后查询,其中的内容包括常用的excel功能,同时里面还加入了Python画图的库
Python 编程练习题 100 例(源码),实例在 Python 3.6 环境下测试通过。
这个爬虫是爬取汽车之家中口碑的相关内容,主要是爬取网页中左下角的那个买车用途,并且最终进行评论的数据清理工作
R语言的一系列操作,关于如何使用R语言进行数据清洗,画图的一系列教程
使用R语言处理suns数据的一些操作
2018年发表的文章‘热点事件’是否影响主导公众的社会关注的代码,文件,全套资料
这个库主要是为了标记人脸识别的其中一个API的库,可以根据这个API返回人脸的一些信息
2019年论文‘超级个体’是选择市场还是国家论文的全套资源
SQL学习的各式语句,时常温习
这个库主要包含三大板块:第一:爬取汽车之家论坛帖子,并且破解字体反爬,获得文本内容;第二:可以对excel文件按照月份进行文件分隔;第三按月对语料进行tf-idf算法的运算,备选文件中也有产生词云的功能
本库首先使用selenium对微博起亚的官方微博进行爬虫,形成CSV格式的文件,而后对其中的内容进行车型筛选,获取相应的数据文件
通过微信公众平台这一个api接口进入,爬取微信公众号文章,本人设置的sleeptime为4-6的随机数最高可以运行5个小时,爬取文章数量为3500篇,大约是三个月的数量
这个项目是导师的某一个需求,导师打算从三万份文书中找出每一份文书中的被告、原告、借款金额、还款数量、被告和原告的数量,但是这些文书里面很杂乱,文书内容也很乱,这个文件是关于对这些东西进行模式识别的尝试,结果还不错
使用scrapy框架爬取知乎网站中某一个大V下面的所有联系人的爬虫程序
本项目是用以对每一个月的汽车之家的各个类型的汽车在该论坛的论坛帖子数量总数、精品帖子总数、帖子获取的时间,帖子的发布者,帖子的原始URL,帖子的独一无二的id进行抓取,而后使用pandas进行清洗,产生上一个月和本月的数据报表,用以对汽车广告战略投放情况进行分析
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.