因为手工收集资料太慢了,所以希望用python2.7能做一些事情。
我要在特定网站( http://**.gsxt.gov.cn ) 指定搜集"特定关键词"。然后获取搜索结果的某些资料保存到Excle
表格或txt文本。
我要的资料很简单(企业名称,法人,年报中的邮箱,电话,住址。)
因为我是python2.7的新手,所以请教高手,要学习哪些python2.7库?或知识?
------------------------------------网站分析F12浏览器记录----------------------------
http://gd.gsxt.gov.cn
search_form searchForm post /corp-query-search-1.html
search keyword searchword
查询按钮 btn_query
http://gd.gsxt.gov.cn/js/subpubsys_homepage.js ( 这个JS 控制输入? )
http://gd.gsxt.gov.cn/js/geetest/gt.js ( 这个JS 验证? )
省份 province 440000/450000,460000,470000.....
地区选择 ads-sci-list area selected
data-value="0" /默认0是全部 data-value="440100" , 后面440100会增长 440200,440300...
状态选择 ads-sci-title cStatus selected data-value="0" /默认0是全部, 增长1,2,3....
搜索结果列表页面 search_list_item db
(每页10个结果)
( 点击链接,进入详细页 href= )
公司名字 f20
法人 div-user2 fa fa-user2 ml20 g3
odd even
搜索结果页数选择 pagination
首页 href="javascript:turnOverPage(0)"
当前页 current
href="javascript:turnOverPage(*)" /*号,1,2,3....
年报 annual_menu_table
查看 jumpToAnnualDetail(this) clickToDetail
地址 addrForColor1 addr
电话 telForColor1 tel
邮件 emailForColor1 email
-------------------------------------------网站分析结束------------------------------------