webMagic 爬虫demo
1.没有使用代理,导致出现多次ip访问异常,免费的代理不稳定,几乎不能用
2.多线程这块爬虫还是做的不错的
3.对知乎 csdn 天天基金都有爬过,结构还是挺好爬的
4.基本使用jsoup来解析html,但也有些采用xpath,两者各有长处
5.同时实现的pieline是用es引擎存储数据
6.通过部署kibana来统计分析爬完的数据,曾分析知乎用户性别,用户文章数,问题数,粉丝数等,还有基金网的净值排名等
7.框架不太好的地方是 出现异常 不好定位,只是抛出了异常,没有打印具体信息这个需要日后优化