caiyunbin Goto Github PK

followers: 2.0 following: 0.0 repos: 24.0 gists: 0.0

Name: caiman

Type: User

Company: shanghai university

Bio: stay hungry! stay foolish

Location: shanghai

caiman's Projects

-

东方网一致行动人爬虫

ciyunzhizuoxiangjie

这个文件是关于如何制作词云的详细步骤，数据使用的是汽车之家创酷车型的2019年全年的帖子

dongfang

本文爬取东方财富网十大股东的数据，代码也可以迁移到该网站的所有版块，另外最后也可以开启多进程，经过测试该网站没有反扒的措施，比较容易爬取

douban

豆瓣读书的爬虫代码，豆瓣这种网页属于小白网页，随便怎么爬，但是为了纪念我这个新手，还是将这个代码上传把

jueceshu

使用Python的普通方法或者使用pandas库写决策树

knn

采用pandas库进行KNN算法的创建；另外采用Python的自带基本函数对KNN算法进行创建

maoyan

这是一个用猫眼电影网站练习正则表达式的爬虫文件

mysql_connect

关于MySQL连接的两个小文件

pandas-data-analyse

使用pandas进行数据分析的各式各样的操作，这是关于pandas学习的2000行代码，用以日后查询，其中的内容包括常用的excel功能，同时里面还加入了Python画图的库

pythonexercise

Python 编程练习题 100 例（源码），实例在 Python 3.6 环境下测试通过。

qichezhijiakoubei

这个爬虫是爬取汽车之家中口碑的相关内容，主要是爬取网页中左下角的那个买车用途，并且最终进行评论的数据清理工作

r-storage

R语言的一系列操作，关于如何使用R语言进行数据清洗，画图的一系列教程

r-suns

使用R语言处理suns数据的一些操作

redianshijian

2018年发表的文章‘热点事件’是否影响主导公众的社会关注的代码，文件，全套资料

renlianshibieapi

这个库主要是为了标记人脸识别的其中一个API的库，可以根据这个API返回人脸的一些信息

shangshigongsi

2019年论文‘超级个体’是选择市场还是国家论文的全套资源

sql-commands

SQL学习的各式语句，时常温习

tf-idf-qichezhijia

这个库主要包含三大板块：第一：爬取汽车之家论坛帖子，并且破解字体反爬，获得文本内容；第二：可以对excel文件按照月份进行文件分隔；第三按月对语料进行tf-idf算法的运算，备选文件中也有产生词云的功能

weiboyuliaochuli

本库首先使用selenium对微博起亚的官方微博进行爬虫，形成CSV格式的文件，而后对其中的内容进行车型筛选，获取相应的数据文件

weixin

通过微信公众平台这一个api接口进入，爬取微信公众号文章，本人设置的sleeptime为4-6的随机数最高可以运行5个小时，爬取文章数量为3500篇，大约是三个月的数量

world-cultural-heritage

yongkangwenshu

这个项目是导师的某一个需求，导师打算从三万份文书中找出每一份文书中的被告、原告、借款金额、还款数量、被告和原告的数量，但是这些文书里面很杂乱，文书内容也很乱，这个文件是关于对这些东西进行模式识别的尝试，结果还不错

zhihu

使用scrapy框架爬取知乎网站中某一个大V下面的所有联系人的爬虫程序

zidonbaobiao

本项目是用以对每一个月的汽车之家的各个类型的汽车在该论坛的论坛帖子数量总数、精品帖子总数、帖子获取的时间，帖子的发布者，帖子的原始URL，帖子的独一无二的id进行抓取，而后使用pandas进行清洗，产生上一个月和本月的数据报表，用以对汽车广告战略投放情况进行分析

caiyunbin Goto Github PK

caiman's Projects

Recommend Projects

Recommend Topics

Recommend Org