striver-ing / wechat-spider Goto Github PK

开源微信爬虫：爬取公众号所有文章、阅读量、点赞量和评论内容。易部署。持续维护！！！

Python 99.38% Dockerfile 0.62%

wechat-spider's Issues

关于微信的搜一搜、看一看的数据，是否有方法进行采集？

关于微信的搜一搜、看一看的数据，是否有方法进行采集？
目前通过fiddler，是无法抓取到，这方面的api接口的

无法下载包： This XML file does not appear to have any style information associated with it. The document tree is shown below.

AccessDenied
You do not have read permission on this object.
5F4759CBC90E843631B2CEB4
zbkj-service.oss-cn-beijing.aliyuncs.com

value is not a valid float

Exception: Command # 1 (ZADD wechat:z_article_task http://mp.weixin.qq.com/s?__biz=MzI2MzEwNTY3OQ==&mid=2648978376&idx=1&sn=31d0adcbbb6aa85c001293e231c9f0ca&chksm=f2506e28c527e73e329b72332c04f6d6bddbfc0edcbec6f6a8ab92c2c07a13a37fc278a59124&scene=27#wechat_redirect article_url) of pipeline caused error: value is not a valid float

Redis Error: Exception: Command #1 (ZADD wechat_spider:z_article_task ... ...) of pipeline caused error: value is not a valid float

错误信息：Exception: Command # 1 (ZADD wechat_spider:z_article_task http://mp.weixin.qq.com/s?__biz=MzU0MDg5MTY0NA==&mid=2247499345&idx=2&sn=55f0ff35f6fe8838e84c2cdc653dab60&chksm=fb30fec2cc4777d4506743d91810053e5049441a726b476a10d89d10c4d6ada7001f0339de77&scene=27#wechat_redirect article_url) of pipeline caused error: value is not a valid float

在抓取文章详情时出现

系统和及软件信息：
Mac: 10.14.2 (18C54)
Python3: 3.7.4
MySql: 5.6
Redis: 3.2.13

现在初略估计是数据存储结构的问题

访问历史文章列表时，有一个key的参数怎么绕过

抓取时间返回bug

设置成 2019-08-12 00:00:00 之后就只会抓之前的数据

试用密钥过期

请问如何更换正式版密钥

代码开源嘛?

问下代码会开源么?

windows 提示变量类型错误？

温馨提示：服务IP 192.168.1.15 端口 8877# 服务的端口请确保代理已配置
Traceback (most recent call last):
File "run.py", line 38, in
File "run.py", line 25, in start
File "site-packages\mitmproxy\options.py", line 165, in init
File "site-packages\mitmproxy\optmanager.py", line 225, in update
File "site-packages\mitmproxy\optmanager.py", line 216, in update_known
File "site-packages\mitmproxy\optmanager.py", line 57, in set
File "site-packages\mitmproxy\utils\typecheck.py", line 74, in check_option_type
TypeError: Expected <class 'int'> for listen_port, but got <class 'str'>.
[42528] Failed to execute script run

文章详情，也是自动获取的么？为什么我这边只能获取到列表，详情里边是空的，必须手动点一篇，才能抓一篇

<< Cannot establish TLS with client (sni: mp.weixin.qq.com): TlsException("(-1, 'Unexpected EOF')",)

报错了，是什么问题

爬虫遇到含有视频的文章停止工作

一、重现步骤

mysql里面task表，下发任务
设置代理
进入历史消息
参考链接：https://mp.weixin.qq.com/mp/video?__biz=MzA3OTk1NTkyNw==&mid=2454261633&sn=3f48492cb3b2497cd155237998d89dff&vid=q1310iwnkzn&idx=1&scene=27&fromid=1&uin=&key=&devicetype=Windows+10+x64&version=63010048&lang=zh_CN&ascene=7&fontgear=2
二、期望结果
含有视频的文章爬取文字后，继续进入下一篇文章的爬取
三、实际结果
只要文章含有视频，就开始播放视频，然后停止工作，即便重新进入微信历史消息，也会跳转到含有视频这一篇文章，无法跳过。

历史文章列表要逐个点，比较麻烦

老哥您好，只有comment和dynamic表有数据，article表没有数据

Exception: Command # 1

Exception: Command # 1 (ZADD wechat:z_article_task http://mp.weixin.qq.com/s?__biz=MjM5NTc5NTU4Ng==&mid=2652165560&idx=2&sn=332fc7e160c88bcbc39387aa18bcf7fc&chksm=bd1372558a64fb4371104c61bc903561629cd035c8b76ff3a89979fc698b00d8e0d57642f206&scene=27#wechat_redirect article_url) of pipeline caused error: value is not a valid float

遇到个别微信文章，卡住无法刷新问题

求大佬解答！
遇到个别微信文章，程序运行采集具体文章时，会停留在改文章页面，虽然显示x秒后刷新，但实际无法刷新到下一篇，但程序依然在运行没有报错或者中止，导致采集事实上中断。这些文章而且往往集中出现在个别公众号。

查看这些文章: 表现为无论手机或者电脑端打开，在这些文章结尾，70%情况刷不出"阅读，在看，点赞的数量"，也没有评论（但偶尔这些又刷得出）

发生问题的公众号：
MzI0NjQ2MTgwMQ==

这些页面的url如下：
https://mp.weixin.qq.com/s?__biz=MzI0NjQ2MTgwMQ==&mid=2247484887&idx=1&sn=765426799ac0763181d77451eb81c22c&chksm=e9bfa1d1dec828c70849da53924ff7b1003774f80099f6ffff9a3fe48ae95ec04430d7c75878&scene=27&key=01c80ebb0e8b53d5e6d6f48a0383f5d304bb316e9108d3306d77

https://mp.weixin.qq.com/s?__biz=MzI0NjQ2MTgwMQ==&mid=2247485350&idx=1&sn=066a7f35c6e3db790f46066ed4bea8db&chksm=e9bfa3a0dec82ab607579c496e3efb4cb14a351f4a1e69ad100429c95e1d15d5f86b97f73011&scene=27&key=01c80ebb0e8b53d53699a4d08f6e08dd75d038e1cffd53615221

https://mp.weixin.qq.com/s?__biz=MzI0NjQ2MTgwMQ==&mid=2247495601&idx=1&sn=abc1bced5c7cf4e6adbb94e95e89452a&chksm=e9bc4bb7decbc2a1a0574268271385e6fea62d7104f9f4c9ef6be006f3f7784bf65a820adef1&scene=27&key=62a7fb7a03c8730e384d2027261c54d1324a7c87345d746baede

https://mp.weixin.qq.com/s?__biz=MzI0NjQ2MTgwMQ==&mid=2247485923&idx=1&sn=957b77b73aaab2f7a6826e8cd6843189&chksm=e9bfade5dec824f3733cb875211e4d595e0f08dc9dd46f051cf85022618a0eb62ae55f7266f4&scene=27&key=ac46451f47ae34ec386354b14d044bc06adb8f15465e47c375a9

配置：
微信3.3.5电脑版
没有更新mitm到最新版

请问后续是否考虑爬取关注人的昵称？

这个项目应该如何运行？

python新手，看不懂代码。。。

证书都安装了，抓不到文章。

192.168.1.4:34409: CONNECT mmbiz.qpic.cn:443
<< Cannot establish TLS with client (sni: mmbiz.qpic.cn): TlsException("SSL handshake error: Error([('SSL routines', 'ssl3_read_bytes', 'sslv3 alert certificate unknown')],)",)

亲，你这个下载了之后mac下面打开不能运行啊

只能以文本形式打开，但是不能运行，请问要怎么弄？【 = = 双击之后就是文本打开而已】

不能爬取文章的全文吗？

我已经跑成了但是没有文字的全文，不知道是我的问题还是代码不支持。麻烦了

创建数据库警告

D:\Python37\lib\site-packages\pymysql\cursors.py:444: Warning: (1478, 'InnoDB: ROW_FORMAT=DYNAMIC requires innodb_file_per_table.') while self.nextset(): D:\Python37\lib\site-packages\pymysql\cursors.py:444: Warning: (1478, 'InnoDB: assuming ROW_FORMAT=COMPACT.') while self.nextset(): D:\Python37\lib\site-packages\pymysql\cursors.py:165: Warning: (1478, 'InnoDB: ROW_FORMAT=DYNAMIC requires innodb_file_per_table.') while self.nextset(): D:\Python37\lib\site-packages\pymysql\cursors.py:165: Warning: (1478, 'InnoDB: assuming ROW_FORMAT=COMPACT.') while self.nextset(): 温馨提示：服务IP 192.168.0.170 端口 82 请确保代理已配置 Proxy server listening at http://*:82

没爬成功评论，这个功能现在还有效吗？

请问这个怎么解决呢？

大佬，我这边部署好了，也跑了一两个月了，但是有个问题就是我每天都得手动点一下文章列表才能抓取

大佬，我这边部署好了，也跑了一两个月了，但是有个问题就是我每天都得手动点一下文章列表才能抓取。
我的account_task最开始就已经配置好了的，但是把task里面的任务抓取完了之后，它就是一直变成休眠状态
“暂无任务休眠 3600s 下次刷新时间 2020-12-05 12:19:32” 但实际上公众号已经有新推送了，它并没有去自动扫描到新文章。
比如昨天早上9点，我把所有的公众号点一遍，然后它就慢慢的把所有的文章都抓取过来，然后到今天了，公众号又有新的文章推送了，它是不是因该自动获取新的文章？
`以下是我的配置文件，大佬帮忙看一下，是不是我的哪个操作有问题？求大佬帮忙解惑 [抱拳]

spider:
monitor_interval: 3600 # 公众号扫描新发布文章周期时间间隔单位秒
ignore_haved_crawl_today_article_account: true # 忽略已经抓取到今日发布文章的公众号，即今日不再监测该公众号
redis_task_cache_root_key: wechat # reids 中缓存任务的根key 如 wechat:
zombie_account_not_publish_article_days: 90 # 连续90天未发布新文章，判定为僵尸账号，日后不再监控
spider_interval:
min_sleep_time: 20
max_sleep_time: 80
no_task_sleep_time: 3600 # 当无任务时休眠时间
service_port: 8080 # 服务的端口
crawl_time_range: ~~2020-09-20 00:00:00 # 近～远，如《crawl_time_range: 2019-07-10 00:00:00~~2000-01-01 00:00:00》 # 抓取的时间范围若不限制最近时间可写为 ~2000-07-01 00:00:00 若想抓取全部历史则不设置

下发任务时_biz别随便填，需要填采集公众号对应的_biz，采集几个公众号，就下发几个_biz

_biz如何获取

外部__biz列表导入MySQL无法识别问题（已解决）

以下问题已经解决，原因为向数据库导入的csv，在文件头以及行末存在不可见字符，删除后运行正常。

大家好!在mySQL中，我把外部获得由csv文件导入的几百个__biz存在了另一张表里，如果我手动粘贴（另一张表里）具体的值到wechat_account_task中，程序运行良好，可以提取内容。但当我用SQL 命令复制那些外部__biz值到wechat_account_task的__biz列中，程序不报错，但是无法开始遍历各个微信号历史文章列表（停留在我一开始打开的公众号页面，说马上刷新，但是不刷新）。让我很纳闷头疼了好几天，希望得到各位指教！

更新：
研究了一下发现。虽然从csv导入的biz号显示的和正常的biz字段一模一样，但是binary里面看会多一行 0x00000010, 里面往往是“0d”。
猜测这个差别是导致程序无法读取__biz的原因。但mySQL怎么处理为好呢？

载入csv文件的代码如下：
LOAD DATA INFILE 'C:/ProgramData/MySQL/MySQL Server 8.0/Data/wx250/biz/biz1_250.csv'
INTO TABLE importtable;
CHARACTER SET UTF8
FIELDS TERMINATED BY '\n'
LINES TERMINATED BY '\n';

p.s.
我电脑是美国买的，常有默认编码不兼容的问题。

数据库录入数据不全

navicat设置表格wechat_article的digest的类型为mediumtext，仍然无法录入微信公众号正文全数据
https://sm.ms/image/BTRDMP6vxtpVFrk
https://sm.ms/image/GXLrCvT4mi9hzbd

使用windows版微信客户端需要开启网络代理设施吗？

您好，请问用windows版微信客户端时需要开启网络代理吗？

然后再确定一下操作方法：例如我想得到公众号 __biz=MzIxNzg1ODQ0MQ== 全部文章的信息包括点赞数，阅读量，那么我只需要开启redis，mysql 和 .exe 后，在 wechat_account_task table 里添加一行: INSERT INTO wechat_account_task (__biz) VALUES ("MzIxNzg1ODQ0MQ=="); 然后在windows微信客户端里点击任意一公众号查看历史消息程序就会开始收集数据了吗？我现在只能在游览器打开公众号历史时才会看到 ”休眠Xs下次刷新时间...“ 的信息。每当再次查看数据库里时除了 is_zombie=1 也没有任何变化。

打开系统配置（System Preferences.app）- 网络（Network）- 高级（Advanced）- 代理（Proxies）- Secure Web Proxy(HTTPS) 填上该安装服务器的IP和端口8080

我填的IP是本机地址127.0.0.1

接下来我使用./wechat-spider-mac启动，输出如下错误：

温馨提示：服务IP 10.2.110.55 端口 8080 请确保代理已配置
Traceback (most recent call last):
  File "site-packages/mitmproxy/proxy/server.py", line 46, in __init__
  File "site-packages/mitmproxy/net/tcp.py", line 579, in __init__
OSError: [Errno 48] Address already in use

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
  File "run.py", line 38, in <module>
  File "run.py", line 28, in start
  File "site-packages/mitmproxy/proxy/server.py", line 55, in __init__
mitmproxy.exceptions.ServerException: Error starting proxy server: OSError(48, 'Address already in use')
[72101] Failed to execute script run

看起来像是8080已经被占用了

那么想问一下，该如何解决这个问题？

striver-ing / wechat-spider Goto Github PK

wechat-spider's Issues

以下问题已经解决，原因为向数据库导入的csv，在文件头以及行末存在不可见字符，删除后运行正常。

Recommend Projects

Recommend Topics

Recommend Org