Git Product home page Git Product logo

pythonwebcrawlers's Introduction

05-WebCrawlers

网络爬虫(Web Crawlers)学习笔记。


内容说明:

1、Scrapy文件夹:

web抓取框架Scrapy学习笔记。

2、其他:

  • 01-URL.py:用Python抓取指定URL页面。
  • 02-BFS.py:使用队列来实现爬虫的广度优先搜索(BFS)算法。
  • 03-Chrome.py:伪装浏览器来访问网站。
  • 04-Login.py:模拟用户登录(以登录 CSDN 网站为例)。
  • 05-tieba.py:爬取百度贴吧的HTML网页到本地。
  • 06-JDprice.py:爬虫获取京东的商品价格,并把爬取结果保存至Excel。
  • 07-BaiduLenovo.py:百度搜索框联想词的获取。
  • 08-IdentifyingCode.py:读取验证码图片。
  • 09-downPicture.py:爬取某个网页上的所有图片资源。
  • 10-zhihuLogin.py:知乎网的登录。
  • 11-CSDNBlogList.py:根据用户名,获取该用户的CSDN的博客列表。
  • 12-ChromeCookie.py:在Python中使用Chrome浏览器已有的Cookies发起HTTP请求。
  • 13-CookieDeciphering.py:Chrome 33+浏览器 Cookies encrypted_value 解密。
  • 14-ChromePassword.py:获取Chrome浏览器已保存的账号和密码。
  • 15-ZhihuAnswerList.py:获取某个用户的知乎回答列表及赞同数(静态网页爬虫)。
  • 16-selenium.py:动态爬虫工具 selenium 的安装与使用(通过控制浏览器实现)。
  • 17-Phantomjs.py:动态爬虫工具 Phantomjs 的安装与使用(通过JS渲染实现)。
  • 18-WeiboAnalbum.py:爬取新浪微博某个用户的头像相册(通过分析API JSON)。
  • 19-BeautifulSoup.py:Beautiful Soup 学习笔记(python3中的爬虫匹配神器)。
  • 20-DoubanMovieTop250.py:爬取豆瓣评分最高的250部电影(使用Beautiful Soup)。
  • 21-DoubanMovieTypeTop.py:按类别爬取豆瓣评分最高的电影(使用Beautiful Soup)。
  • 22-PyQuery.py:Python中PyQuery库的使用总结。
  • 23-C315Check.py:根据物流防伪码,查询所购商品是否正品。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.