a) Python2.7及其相关python依赖包,缺啥补啥
i. tornado
ii. requests
iii. pymysql
iv. urllib2
v. cookielib
vi. zlib
vii. Queue
viii. bs4
ix. demjson
x. textrank4zh
xi. elasticsearch
xii. jieba
b) mysql,启动server
c) elasticsearch-6.x以上,默认端口配置,启动elasticsearch
d) elasticsearch 要求机器4G以上内存
2. 项目部署说明
a) 进入项目文件夹的duck_prophet/config/db_operate/目录里的mysql_conf.py文件,修改mysql数据库连接配置。
b) 进入项目文件夹的script目录
c) 执行mysql_prepare.py脚本,完成数据库建库建表工作
d) 执行history_prepare.py脚本,抓取部分历史新闻数据,执行完成之后
e) 执行mysql2elastic.py脚本,完成全量导入elasticsearch简历索引工作
f) 执行daily_crawler.py脚本,开启日常爬虫程序,前台或后台运行
g) 执行mysql2elastic_yesterday.py脚本,开启每日索引新闻程序
h) 执行tornado_server.py脚本,开启web接口服务,端口为8888