get data from http://www.people.com.cn/
根据关键词列表爬取文章内容及图片;
按网页结构目录化编码存储;
支持多线程,不定期更新;
2019.9.6更新日志:
1、去除队列锁,去除自动编码检测(默认指定GB2312,可手动修改),大幅度提升多线程的速度;
2、优化了多线程文件读写;
3、默认线程组合设置为4+20+10+8
2019.9.4更新日志:
1、通信队列的大小限制;
2019.12.28更新日志:
1、人民网的反爬防护升级,所以实装了随机切换浏览器头。
2、修正数据文件标题栏缺失的问题。