spider_for_experts

1、这里采用了以专家名命名文件、信息作为文件内容的方式，一方面是为了防止数据全都存储在内容中导致内存爆炸；另一方面也是为了爬虫出现异常情况时至少能有一部分数据被保留下来，且当爬虫重新开始工作时，可忽略已保存的数据，从中断处继续工作。

2、实际上，谷歌除了会封IP，偶尔也会返回一个空页（需要进行人机验证），代码中未增加对空页的判断，从而使得空页的提取结果为空，但该”空“仍然被保存到文件当中。因此，程序规定，若连续遇到三个空页，则推出运行，此时需要手动查看最近的三个文件及三个专家对应的Google scholar页面，若确实没有内容，则重新运行即可；若Google scholar页面不为空而本地文件为空，则需删除本地文件、更换VPN站点、重新运行程序。

g_utils.py

爬虫的辅助部分，主要用于请求头的构建、cookie的构建、访问网页、保存指定的html块的内容、对缺省内容进行padding。

缺省内容主要存在于论文发表的期刊名和发表年份往往会出现缺失，程序会将缺失的内容用**"None"<type ’str‘>**进行补全。

utils.py

一些通用的工具函数，如json格式的保存及读取等。

如何使用数据？

kits.py将会告诉你如何使用爬取到的数据。

这个文件中包含了一些函数，通过观察（调用）这些函数可以明白如何使用for_rand.py以及google_scholar.py爬下来的数据。

函数get_experts()以及get_info()分别实现了从文件./data/stafflist.json和目录./data/info/查询信息。

函数usage_example作为一个实例，指明了如何单独使用上述两个函数和如何组合使用上述两个函数来查询信息。

requirements

interpreter version

python 3.8

packages

bs4

json

random

requests

time

xml.dom.minidom

xml.etree.ElementTree

gasbarroni8 / spider_for_experts Goto Github PK