由于我们的acm的指导老师对项目组布置的一个高考志愿学校推荐系统,是大数据和机器学习的结合,我负责的是爬取数据,给机器学习小组用,网页数据不在你搜索当前学校网页上看到的那样,是通过js生成的。数据来源:https://gkcx.eol.cn/soudaxue/queryschool.html,这个网址的数据相对来说很齐全....目前来说能够找到高校录取数据最多的网址。
提示:由于网站更新,采用ajax异步请求数据(网页源代码没有数据)然后加载到网页中,所以本博客源码没法使用,但是爬取逻辑思路还是很重要的,可以供大家学习,需要更新后能用的代码请点击传送门:https://blog.csdn.net/memory_qianxiao/article/details/88767327,最新分析以及可使用代码,供大家参考。
申明:本文章为作者原创文章excel版本源码仅供学习(数据库版就不发了)语言是python,禁止商业用,如果商业用请联系作者qq:1819625428。这里会发出2018年及2019年几次更新可用的代码大概每三个月网站会变更一次,导致代码无法使用,最新可用代码更新时间是北京时间2019年7月19日