如果发现爬取失败的问题,可以发邮箱:[email protected] 或 [email protected],这样我可以及时地收到消息。
如果碰上jupyter notebook文件不能加载的问题,可以登上nbviewer (jupyter.org) ,然后输入github上的jupyter文件的url,就可以看到文件的内容。
-
Xpath的使用(比较简单,可以直接利用Google的“Copy Xpath”功能来辅助)
-
PyQuery
-
Ajax处理(需要在开发者工具中选择network的XHR或JS,找到符合条件的网址,一般内容为json格式)
-
疫情数据爬取(国外数据),截止到2020年12月31日 (没有添加国内数据)
-
股票历史数据 (涉及到字典的使用)
-
Scrapy
- Scrapy爬取Bing美图
- b站画友的最热图片
- 半次元的周榜上的封面图
- 唯1图片的动漫美女图片下载
- 对scrapyd爬虫实验网站的爬虫
- 火熊网图片爬取下载(这个涉及到表单的提交,个人认为这个比较重要)
- 爬取《极品家丁》小说 (笔趣看的小说)
- 爬取阳光高考网的院校库的大学信息 (scrapy和openpyxl相结合,涉及到open_spider()和close_spider()的用法)