Git Product home page Git Product logo

jerrywebspider's Introduction

jerryWebSpider

项目简介

jerryWebSpider是一个java爬虫实例集合,基于springboot构建,目前内含对tuwan网妹子图的爬虫。

出现了Python版本哦,请参阅“姊妹项目”!~~

更新历史

2018.12.8 初始提交

2018.12.17 增加leshe网爬虫

2019.1.7 原有tuwanSpider、lesheSpider由于接口升级等原因失效,作废。追加tuwanAlbumSpider和lesheAlbumSpider,对公开图片进行爬取

2019.1.23 对tuwanAlbumSpider进行版本更新,利用新的接口漏洞对全站图片进行爬取

2019.2.21 追加的tuwan序号为1286-1391的压缩包已更新到百度云

2019.2.22 追加的tuwan序号为1292-1442的压缩包已更新到百度云

2019.2.27 百度云资源被封禁,新的下载方式请见博客链接

2019.3.24 追加基于jerryWebSpider的url获取逻辑而转化的python27版本

2019.6.5 追加1-1400分块打包资源下载地址,下载方式为百度云,新的下载地址请见博客链接

项目模块

一、tuwanSpider

tuwan接口更新,此爬虫目前已失效,目前已无法直接下载压缩包,但可以逐张下载收费的图片,具体参见tuwanAlbumSpider。

提供对tuwan网妹子图、音乐的抓取及下载功能,程序主要逻辑集中在task包下的TuwanSpiderTask类与TuwanImageDownloadTask类,入口为TuwanSpiderController。

二、tuwanAlbumSpider

该爬虫提供对tuwan网妹子图的抓取及下载功能,程序主要逻辑集中在task包下的TuwanAlbumSpiderTask与TuwanAlbumImageDownloadTask类,入口为TuwanAlbumSpiderController。

三、lesheSpider

leshe程序更新,需要密码,此爬虫目前已失效。

提供对leshe网妹子图的抓取及下载功能,程序主要逻辑集中在task包下的LesheSpiderTask类与LesheImageDownloadTask类,入口为LesheSpiderController。

四、lesheAlbumSpider

提供对leshe网妹子图公开图片的抓取及下载功能,程序主要逻辑集中在task包下的LesheAlbumSpiderTask类与LesheAlbumImageDownloadTask类,入口为lesheAlbumSpiderController。

目录结构

运行说明

一、tuwanAlbumSpider运行说明

将代码clone到本地后。

1、使用navicat等工具新建mysql数据库,名称自定;

2、将db目录下的my_spider.sql导入数据库(该sql已经包括截止2019-01-23爬取到的最新数据,内含34669张tuwan图片下载地址);

3、将项目导入idea或其他集成开发工具;

4、修改springboot配置文件application-dev.yml中的数据库配置及图片保存地址tuwan:album:imageStorePath;

5、启动项目;

6、图包地址爬取:访问http://你的IP:8088/tuwanAlbumSpider/startSpider?start=0&end=1500 即可对tuwan网id从0到1500的相册进行爬取;

7、图包批量下载:访问http://你的IP:8088/tuwanAlbumSpider/startDownLoadImage?start=1390&end=13901 可对前一步爬取到的图包进行下载,以本链接为例:下载从1390号图包开始,到1391号图包结束;

ps:系统默认会跳过已经下载过的图片,如果想重新下载需要将数据库中tuwan_album_images表对应记录的downloaded字段置为0

8、项目打包及服务器部署运行请自行搜索

二、lesheAlbumSpider运行说明

将代码clone到本地后。

1、使用navicat等工具新建mysql数据库,名称自定;

2、将db目录下的my_spider.sql导入数据库(该sql已经包括截止2018-12-17爬取到的最新数据),如在其他步骤中已经导入过该数据库则无需新建数据和导入数据库;

3、将项目导入idea或其他集成开发工具;

4、修改springboot配置文件application-dev.yml中的数据库配置及图包保存地址leshe:album:imageStorePath;

5、启动项目;

6、图包地址爬取:访问http://你的IP:8088/lesheAlbumSpider/startSpider 即可对全站公开图进行爬取;

7、图包批量下载:访问http://你的IP:8088/lesheAlbumSpider/startDownLoadImage 即可对前一步爬取到的图片进行下载;

8、项目打包及服务器部署运行请自行搜索

姊妹项目

1、对tuwanAlbumSpider基于Python的实现

tuwan_crawle

作者:ignnonster

项目地址:https://github.com/bignnonster/tuwan_crawler

说明:基于jerryWebSpider的url获取逻辑而转化的python27版本。适用于没有java、mysql环境的同学。

其他

以上案例、代码及说明仅供测试使用,请勿用于商业用途。如需转载请注明出处,如代码运行或测试过程中发现问题或bug请发起issues。

资源打包下载见

http://blog.hytcshare.com/post/tuwan-spider.html

jerrywebspider's People

Contributors

jrhu05 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

jerrywebspider's Issues

不进行下载

运行下载提示
{"msg":"","code":"0","data":"success! download on going!"}
但是没有下载,如何解决呀

运行后下载完一个压缩包后必定报错

报错内容:

ERROR 6893 --- [pool-1-thread-1] o.h.engine.jdbc.spi.SqlExceptionHelper   : Duplicate entry '0' for key 'PRIMARY'
ERROR 6893 --- [pool-1-thread-1] o.h.i.ExceptionMapperStandardImpl        : HHH000346: Error during managed flush [org.hibernate.exception.ConstraintViolationException: could not execute statement]
ERROR 6893 --- [pool-1-thread-1] o.h.engine.jdbc.spi.SqlExceptionHelper   : Data truncation: Data too long for column 'stack_dump' at row 1
ERROR 6893 --- [pool-1-thread-1] o.h.i.ExceptionMapperStandardImpl        : HHH000346: Error during managed flush [org.hibernate.exception.DataException: could not execute statement]

spider_task表:

mysql

请补一下博客里面301-400的链接,已经打不开了

现在有流行的秒传链接,大佬可否考虑一下用秒传链接来防止百度云的分享链接失效。
关于秒传链接的详细内容,github里面也有相关的项目,大佬可以参考一下。
请补一下301-400的链接,拜托了。

新版接口不能爬MP3格式了么

旧接口是根据标题,然后将图片打包成zip,然后下载,同时还会爬取MP3文件,但是新版接口里面好像没有MP3的相关爬取操作。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.