View Code? Open in Web Editor
NEW
This project forked from sunny-313/doubanspider
应用Python3、urllib库,Flask框架、Echarts.js、WordCloud库,sqllite数据库等技术实现
CSS 23.65%
JavaScript 5.33%
HTML 68.67%
Python 2.35%
doubanspider's Introduction
本项目使用的语言为Python3, 用到的几个模块有:BeautifulSoup(爬数据),pandas(数据处理),Echarts.js(可视化),WordCloud库生成词云,部分图表由Tableau生成。
- 获取数据:使用urllib库获取豆瓣页面,BeautifulSoup进行网页解析,正则表示式抽取内容,获得豆瓣电影排行数据;
- 存储数据:利用python的xlwt库将抽取的数据datalist写入Excel表格;
- 数据可视化:利用Echarts丰富的可视化图表进行爬取数据的分析、利用WorldCloud依照特定图片合成词云;
- 应用flask框架完成网站搭建并能够本地访问。
- 计划要抓取的字段包括:电影详情链接、图片链接、影片中文名、影片外国名、评分、评价数、概况、相关信息等
- 需要抓取的影片信息有250条,每页25部影片,一共有10页。简单浏览网页不难发现,翻页的链接不需要从页面底端抓取,直接修改url参数即可。
将清洗好的文件导入Tableau,制作图表分析
- 可以分析**电影在近些年的发展情况,跟世界上其他国家相比处在什么水平;
- 可以分析近些年有哪些国家/地区电影质量越来越高,哪些越来越差;
- 可以分析观众对不同电影类型的关注度差异有多大;等等。
doubanspider's People
Contributors
Watchers