wnma3mz / wechat_articles_spider Goto Github PK

View Code? Open in Web Editor NEW

2.6K 73.0 684.0 40.52 MB

微信公众号文章的爬虫

License: Apache License 2.0

Python 100.00%

wechat spider officialaccounts wechat-official-account python36

wechat_articles_spider's Introduction

微信公众号文章爬虫（微信文章阅读点赞的获取）

安装

pip install wechatarticles

展示地址：

~~日更，获取公众号的最新文章链接，支持日更阅读点赞评论正文~~

注：本项目仅供学习交流，严禁用于商业用途（该项目也没法直接使用），不能达到开箱即用的水平。使用本项目需要读文档+源码+动手实践，参考示例代码（test文件夹下）进行改写。

提示：另外，已经有很多朋友（大佬）通过直接看源码，已经基于这套项目，或者重写，用于各自的需求。

实现思路一:

从微信公众号平台获取微信公众所有文章的url
登录微信PC端或移动端获取文章的阅读数、点赞数、评论信息

完整思路可以参考我的博客: 记一次微信公众号爬虫的经历（微信文章阅读点赞的获取）

实现思路二：

登陆微信PC端或移动端获取公众号所有文章的url，这种获取到的url数量大于500，具体数量每个微信号不完全一致（目前只能一次性，无法获取第二次！！！请慎重使用test_GetUrls.py，最好不用。。。）
同上种方法，获取文章阅读数、点赞数、评论信息

公开已爬取的公众号历史文章的永久链接，日期均截止commit时间，仅供测试与学习，欢迎各位关注这些优质公众号。

公众号列表

科技美学

共青团**

南方周末

AppSo

## Notes

项目始于2017年，当前更新于2023年3月

项目代码进行调整，调用以前的接口请使用pip install wechatarticles。

爬取失败的时候，可能有以下原因
1. 运行的时候需要关闭网络代理（抓包软件），或者添加相关参数
2. 参数是否最新，获取微信相关参数（cookie、token）时，一定要保证是对应公众号的任意文章
3. 检查代码
4. 需要关注对应公众号（Maybe）
思路一获取url时，每页间隔可以设定久一点，比如3分钟，持续时间几小时（来自网友测试）
获取文章阅读点赞时，每篇文章可以设定在5-10s左右，过期时间为4小时；若被封，大约5-10分钟就可继续抓取。
思路二获取url时，如果被封，需要24小时整之后才能重新抓取（该条作废，暂时不能解封）

参数文件说明见README

python版本

python: 3.6.2、3.7.3

功能实现

功能

公众号相关

公众号信息

公众号biz。获取方式：清博、公众号网页

公众号发表文章数量（不完全准确）

文章相关

某公众号文章的url。获取方式：公众号网页、PC端微信、移动端微信、微信读书

某公众号所有文章信息（包含点赞数、阅读数、评论信息），需要手动更改循环

某公众号指定文章的信息

支持微信文章下载至本地转为html（图片可选是否保存）

API实例

利用公众号网页版获取微信文章url

此处有次数限制，不可一次获取太多url。解决方案多个账号同时爬取 test_WechatUrls.py

学习/运行流程

可以看这个issue，十分感谢大佬简洁的文字说明。

广告位

附录

问问题的正常方式：

描述清楚你运行的系统环境、Python环境...（这步骤可选择性忽略）
运行了什么代码（改动了哪部分），报了什么错（请完整截图）？
自己根据报错做了哪些尝试？（文档中是否有描述？在网上搜索的解决方案有哪些）

编程是实践出真知，运行的正确与否可以直接试出来，没必要耽误两个人的时间。如果运行出了问题，请按照以上流程进行提问，但前提是自己要运行过。请直接说问题or需求，不需要等我回复再说。谢谢！大部分问题均可以交流，如果事无巨细的提问，也接受付费教学。

微信赞赏码

wechat_articles_spider's People

Contributors

Stargazers

Watchers

Forkers

2024baibai zhouyijiabc biterrorchen wangtaoceo khaydn nobody-cheng howardyan93 awesome-crawler alwaysbee leezenxu anakinshieh forvendettaw cloudinskywith fireflyxj yule0512 sxhylkl 317459062 wgb128 bigbigx jacobjacob pyyourdaye jysharer hlt2015 saodiawei kulaex2 smallnew666 yanring chrisliu2018 ritrous angrymills rockmelodies lqqyt2423 weraqnm4feo icersummer im3childe fendaq malizheng shusl talonl y7421200 fengzhixiang lanjingnage rkgg jackiedong168 xk1411 luckylarklee yodeng synctrust skyparadekun jy404 577092689 lolisiscon qqhaodong jinlonghe shiliuxing dushoufu cn-dream ffmpegd keenduang caizhhhh enjoyzone dongyanxiong hacder pmkaige feixi f81010991 yibu619 yeechingtiger dave1453629500 wanglin02 dwtechnology xuehaoever ichengplus jankim yeyunxyz zqq5054 llibetter eebenson iiiusky auvch myclry evvil ii0 decadego hulao6 wwxs972 dustinli hongliangbest zhujinhu21 anexplore lizaapus edward-fu puhua cuiyu8580 hhy5277 eluup richardrw alexouto dwgeneral awesometype

wechat_articles_spider's Issues

请求get_history_url 返回结果“unknown error”

mitmdump: command not found

你好，请问：
通过os模块执行 mitmdump命令时提示找不到，使用subprocess模块发现也无法找到mitmdump，有什么办法能够解决的吗

多次尝试后一直提示please update your key

之前测试使用的自己微信号，但当真正爬取时提示更新key，但key已经更新，这是否意味着被封ip或者什么？那被封的时长是多久

utils.py和demo(test_GetUrls.py)中的问题

首先感谢分享！

在运行代码的时候发现utils.py第189行timestamp2date(dt)报错，缺少一个格式化输入。阅读源码后认为这段代码可以删去，或者给定一个日期格式化，否则会在爬取第一轮（10次）的时候报错中断，删去这行代码后代码运行正常。

此外，给出的demo test_GetUrls.py中，84-88行中的url并没有定义（不过可能就是这样写防小白的？）
第27行item=line赋值可以删去，第24行改为 for i, line in enumerate(lst, 0):
同时，第56行需要判断flag是否为1，而这时会报错flag没有定义。应在前面定义flag函数，如在24行加入flag = 0

根据get_history_urls返回的数据格式，应在24行lst遍历前，加入一个遍历，如：
def demo(lst_list): fj = "" item_lst = [] flag = 0 for lst in lst_list: for i, item in enumerate(lst, 0):
这样在demo中才能正确读取传入的数据，否则会报错。

还有源码53-54行的
finally: save_xlsx(fj, item_lst)
可以删去

感谢代码的分享，节省了很多造轮子的功夫。

怎么获取文章中图片的src呢？

您好，根据代码我已经拿到文章的url了。下一步想把文章存到word里，但是拿不到图片的src，咋解决呢。

关于qrcode_url中rd参数值的问题？

　　您好，最新我也在研究微信公众号爬取的问题，正好看到了您的项目。有一个问题还想请教下您：
　　获取二维码的url中每次会有一个rd参数，每次是不一样的，在您的项目中，我看您是把rd参数写死了。我找了很久rd参数的来源，感觉应该是某个js文件执行的结果，但是并没有找到，请问您研究过这个rd参数吗？

无法获得getappmsgext?返回的信息

pc端已登陆微信但抓包getappmsgext?返回的json均为空值，appmsg_token也是空值

我改了下test_WechatUrls.py，用自己注册的公众号的token和cookies，想抓大概20多个公众号8月份至今的所有文章url，之前试过直接每个号抓50个，第一遍好像能抓完，结果没保存下来，后来再抓就报cookie或token错误了，过了一天我改成每个号只抓5个的话也差最后3个公众号抓不到报错，不过我发现有些好设置抓5个，但返回了7-10个文章，还有我用create_time转datetime发现和点开url网页页面上的时间不一致。
主要是有没有啥办法能不被反爬ban掉，可以抓的慢一点，不太方便再搞更多的公众号了。

get info error, please check your cookie and appmsg_token

你好，我尝试了一下你的第一个demo，但我不知道是哪儿出了错误，一直提示 get info error, please check your cookie and appmsg_token。是我哪儿错了吗

在获取不同公众号文章时，上一个的个人token和cookie失效，有解决方案吗

在获取不同公众号文章时，使用上一个的token和cookie失效，但爬上一个的公众号文章时可以使用。

公众平台登录可以实现无人值守吗？

你好，我最近也在做一个类似的爬虫。
采取的思路和你的是一致的，通过登录一个自己的个人公众账号，获取到cookies和token之后，通过接口去获取某一个公众号的文章列表。

但是这个每次登录，都需要人工干预。我尝试把公众平台登录界面的二维码发送到手机，然后长按识别，这样不能达到想要的效果。

请问你这边有可以不需要人工盯着的登录方式吗？

求问这个方法能大批量爬多公众号历史阅读数点赞数吗

如题.

获取文章url别限制之后，要多久能恢复呢

获取文章url接口用多了之后，就一直不能用了，要多久能恢复啊

fiddler抓取到的appmsg_token为空，这是为什么

爬取公众号历史文章数据部分参数注释有误

wechat_articles_spider/wechatarticles/ArticlesUrls.py中的注释如下：

def get_urls(self, nickname=None, biz=None, begin=0, count=5):
        """
        获取公众号的每页的文章信息

        Parameters
        ----------
        nickname : str
            需要爬取公众号名称
        biz : str
            需要爬取公众号的biz, 优先

        begin: str or int
            起始爬取的页数

        count: str or int
            每次爬取的数量，1-5
         
        ......

此处的begin应该指的是从历史文章列表第几项开始的索引

如果使用这个工程呢？

下载下来之后没有makefile，pip install 也不可以想问一下，如何使用工程呢？直接跑test是找不到对应模块的。

使用Pycharm 2019专业版时出现的问题

ArticlesUrls 的 __save_login_qrcode 并不会因为打开图片而暂停，这样会导致程序反复尝试重新登录并且打开一个新的二维码...
目前想到的解决方法是使用 OpenCV 的 cvWaitKey 方法来暂停，或者将 __login_official 方法最后调用的 __startlogin_official 方法改为自调用，并加入休眠时间。
最后说一句，大佬NB！

微信公众号这个借口如何防封呢？

如题，我用这个延时1分钟都会被封。奇怪了

关于获取微信文章链接

对于获取微信文章链接，提供一种思路，就是通过wx小助手将最新文章的推送转发出来

无法获取了？？

not use mitmproxy
Traceback (most recent call last):
File "C:\Users\Admin-Jumper\AppData\Local\Programs\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 662, in urlopen
self._prepare_proxy(conn)
File "C:\Users\Admin-Jumper\AppData\Local\Programs\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 948, in prepare_proxy
conn.connect()
File "C:\Users\Admin-Jumper\AppData\Local\Programs\Python\Python38\lib\site-packages\urllib3\connection.py", line 352, in connect
self.sock = ssl_wrap_socket(
File "C:\Users\Admin-Jumper\AppData\Local\Programs\Python\Python38\lib\site-packages\urllib3\util\ssl.py", line 370, in ssl_wrap_socket
return context.wrap_socket(sock, server_hostname=server_hostname)
File "C:\Users\Admin-Jumper\AppData\Local\Programs\Python\Python38\lib\ssl.py", line 500, in wrap_socket
return self.sslsocket_class._create(
File "C:\Users\Admin-Jumper\AppData\Local\Programs\Python\Python38\lib\ssl.py", line 1040, in _create
self.do_handshake()
File "C:\Users\Admin-Jumper\AppData\Local\Programs\Python\Python38\lib\ssl.py", line 1309, in do_handshake
self._sslobj.do_handshake()
ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1108)

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "C:\Users\Admin-Jumper\AppData\Local\Programs\Python\Python38\lib\site-packages\requests\adapters.py", line 439, in send
resp = conn.urlopen(
File "C:\Users\Admin-Jumper\AppData\Local\Programs\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 719, in urlopen
retries = retries.increment(
File "C:\Users\Admin-Jumper\AppData\Local\Programs\Python\Python38\lib\site-packages\urllib3\util\retry.py", line 436, in increment
raise MaxRetryError(_pool, url, error or ResponseError(cause))
urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='mp.weixin.qq.com', port=443): Max retries exceeded with url: /mp/getappmsgext?appmsg_token=1060_7%2F4I3ZMFTPIxjL%2B52tKBp1IXwiPj_emVvCB2UrVeXEcnQE3tlji-iAPnHtzaUyzgf1bzhDrJAeH3G0_r&x5=0 (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1108)')))

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "D:\wechat_articles_spider\wechatarticles\ArticlesInfo.py", line 72, in read_like_nums
appmsgstat = self.__get_appmsgext(article_url)["appmsgstat"]
File "D:\wechat_articles_spider\wechatarticles\ArticlesInfo.py", line 213, in __get_appmsgext
appmsgext_json = requests.post(
File "C:\Users\Admin-Jumper\AppData\Local\Programs\Python\Python38\lib\site-packages\requests\api.py", line 116, in post
return request('post', url, data=data, json=json, **kwargs)
File "C:\Users\Admin-Jumper\AppData\Local\Programs\Python\Python38\lib\site-packages\requests\api.py", line 60, in request
return session.request(method=method, url=url, **kwargs)
File "C:\Users\Admin-Jumper\AppData\Local\Programs\Python\Python38\lib\site-packages\requests\sessions.py", line 533, in request
resp = self.send(prep, **send_kwargs)
File "C:\Users\Admin-Jumper\AppData\Local\Programs\Python\Python38\lib\site-packages\requests\sessions.py", line 646, in send
r = adapter.send(request, **kwargs)
File "C:\Users\Admin-Jumper\AppData\Local\Programs\Python\Python38\lib\site-packages\requests\adapters.py", line 514, in send
raise SSLError(e, request=request)
requests.exceptions.SSLError: HTTPSConnectionPool(host='mp.weixin.qq.com', port=443): Max retries exceeded with url: /mp/getappmsgext?appmsg_token=1060_7%2F4I3ZMFTPIxjL%2B52tKBp1IXwiPj_emVvCB2UrVeXEcnQE3tlji-iAPnHtzaUyzgf1bzhDrJAeH3G0_r&x5=0 (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1108)')))

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "D:/wechat_articles_spider/test/test_WechatInfo.py", line 16, in
read_num, like_num = test.read_like_nums(article_url)
File "D:\wechat_articles_spider\wechatarticles\ArticlesInfo.py", line 75, in read_like_nums
raise Exception("params is error, please check your article_url")
Exception: params is error, please check your article_url

Process finished with exit code 1

请问这个会有token过期的问题吗？

我目前的项目用selenium模拟+扫码登录，大约20小时左右会出现
{"base_resp":{"ret":200003,"err_msg":"invalid session"}}

就得重新扫码登录公众号了

NEW API （TO-DO）

获取历史文章，http://mp.weixin.qq.com/mp/getmasssendmsg?__biz={}#wechat_redirect

无需关注

点赞量与阅读量无法获取

首先感谢作者的思路和代码
但是目前的获取点赞量与阅读量的接口好像和代码中的不一样，代码中为：
appmsgext_url = origin_url + "__biz={}&mid={}&sn={}&idx={}&appmsg_token={}&x5=1".format(
biz, mid, sn, idx, self.appmsg_token)
而我通过抓包得到getappmsgext?f=json&mock=&uin=NjY0NzM2Njgw&key...

另外，好像并不是appmsg_token 正确就有效的，具体的机制我也没分析出来，还请作者解答

html输出中图片地址错误

在使用url2html时，html中出现的斜杠导致图片无法正常显示，对主代码没有任何更改

关于公众号文章抓取速度与频率

@wnma3mz 你好，感谢你的code，非常clean，很喜欢！

在你的博客上看到说从公众号获取永久链接时，间隔3分钟，可以连续获取几小时
有三个问题：

连续获取几小时后会发生什么？
获取的文章链接，可以任意速率抓取吗？
获取的文章的链接是永久还是也有几小时限制?

请问可以爬关注人的昵称吗

请求商务推广合作

作者您好，我们也是一家专业做IP代理的服务商，极速HTTP，想跟您谈谈是否能够达成商业推广上的合作。如果您，有意愿的话，可以联系我，微信：13982004324 谢谢（如果没有意愿的话，抱歉，打扰了）

通过微信公众平台查看文章url的方法已经失效了，大佬应该怎么解决？

没有查找文章的按钮了

wechat_cookie和appmsg_token无法获取，疑似换接口了

不管是fillder抓包还是用python库在手机上抓包，抓到的都是 /mmopen/xxx 这种请求，并且webstorm项是空的。Windows 微信版本 2.9.5.41，手机端 Android 微信 7.0.16。

能详细介绍一下使用过程吗

绕过微信公众号扫码登录能实现吗？

基本上token和cookie一周到期一次，需要在web页面重新扫码登录这个token应该是与手机微信关联的。跨过手动操作你解决了吗？

楼主你好，可以加您微信交流下嘛

你好楼主，非常感谢您写的项目，可以加微信交流下嘛，谢谢

谁能解释下，具体怎么操作？

有关爬取频率的设置问题以及单日上限咨询

尝试了自己制作了Selenium的脚本用公众号图文推送的方案爬取，但大概到500条的时候，下一页按钮将会触发“系统错误”提示，页面将不再返回更多历史文章信息，想问下微信是否有在这个接口上设置单账号单日上限？
p.s.我的pc版本微信历史文章页面查看也显示访问异常，根本无法打开了。
使用您方案中提供的test_getURL.py测试，仍然遇到同样问题，爬取一段时间后即不再返回更多。
想咨询下是否有解决方案？非常感谢

请问在pycharm中run或者debug会不断出现登陆的二维码，如何解决呢

尝试在pycharm中进行debug的时候，二维码会不断出现，扫描登陆了也没办法继续下去，不知道大家有没有好的解决方法呢，感谢！

cooment_id获取方式针对部分公众号文章有误

文章url:https://mp.weixin.qq.com/s?__biz=MzI4OTUyODgwMQ==&mid=2247486290&idx=1&sn=53e286901e8bfea3181e81e3985b1bc1&chksm=ec2c85dcdb5b0cca94692b5d8ac1233bcf263bef6cd95a2825432175cba8687f8a73e38787a8#rd

比如这篇文章的coment_id的获取，无法用“ArticlesInfo”类中的“__get_comment_id”方法获取到，这个comment_id的样式是这样的:

<html>
<body>
<!--StartFragment-->

d.article_title = xml ? getXmlValue('article_title.DATA') : '';
--
  | d.comment_id = xml ? getXmlValue('comment_id.DATA') : '1767689550690091015';

<!--EndFragment-->
</body>
</html>

建议增加选项，在传统方式无法获取时，用第二种方式获取一下。

我更改的代码如下，供参考哈：

def __get_comment_id(self, article_url):
    """
    获取comment_id

    Parameters
    ----------
    article_url: str
        文章链接

    Returns
    -------
    str:
        comment_id获取评论必要参数
    """
    res = self.s.get(article_url, data=self.data, proxies=self.proxies)
    # 使用正则提取comment_id
    
    comment_id = re.findall(r'comment_id = "\d+"', res.text)
    #如果上一步获取的comment_id为空，则尝试第二种方法获取，如果上一步已经获取了，就跳过
    if len(comment_id) == 0:
        comment_id = re.findall(r"(?<=comment_id.DATA\'\)\s\:\s\')[0-9]+",res.text)            
        return comment_id[0]
    
    if len(comment_id) > 0:
        return comment_id[0].split(" ")[-1][1:-1]
    return ""

192.168.10.102:1869: CONNECT 113.96.209.105:443
 << HTTP protocol error in client request: Bad HTTP request line: b'\x16\xf1\x03\x00\xa1\x00\x00 .....
192.168.10.102:1863: CONNECT 14.17.73.39:80
 << HTTP protocol error in client request: Bad HTTP request line: b"\xab\x00\x00\x01\x03'\ ....

一直找不到发向 mp.weixin.qq.com/mp/ 的流量。会是证书的问题吗？
在 xp 上运行 fiddler，抓取是正常的

爬取会跳过很多推文怎么办？

非常感谢开发这个工具，参考 https://github.com/wnma3mz/wechat_articles_spider/blob/master/test/test_ArticlesAPI.py 我爬取的时候发现会连着跳过几天的推文～不知道有什么解决办法没有。

我检查了下代码应该没有问题，会连着获取几天的推文，然后又跳过几天的推文。。。

    # 自定义爬取，每次爬取5篇以上
    start = 0
    count = 10 # 不是每次得到的都一样
    time_delay = 60 * 3

    for i in range(100):
        if i != 0:
            start += len(data)
        print("===============")
        print("Query round: " + str(i))
        print("Start set to: %d" % start)
        print()
        data = loop_query(test, nickname, start, count)
        with open('out.csv', 'a') as f:
            for j in range(len(data)):
                print("Writing wechat post: " + data[j]['title'])
                f.write(data[j]['title'] + ',' + data[j]['link'] + '\n')

关于获取公众号信息只能部分成功的疑问？

博主您好，我之前通过您提供的方式成功获取了小程序的信息，目前尝试获取公众号的信息部分成功。尝试获取了一些可以成功（如：人民网），但是有一些不能成功（如：养身之道，风水与养生）

具体报错方式如下图：

我使用的方式如图，是全手动获取，代码如下图（已删除cookies信息）

猜测失败原因有2个可能：
1.是否和公众号的类型有关，如企业号和订阅号有关系
2.目前获取是通过微信公众号的后台查询获取，我手动查询后发现有重名

望答复...

获取文章阅读量和点赞量的接口失效了?

返回的appmsgext_json没有了appmsgstat

wnma3mz / wechat_articles_spider Goto Github PK

wechat_articles_spider's Introduction

微信公众号文章爬虫（微信文章阅读点赞的获取）

python版本

功能实现

API实例

利用公众号网页版获取微信文章url

登录微信PC端获取文章信息（阅读点赞）

快速获取大量文章urls（利用历史文章获取链接）

微信文章下载为离线HTML（含图片）

学习/运行流程

相关文档

广告位

附录

wechat_articles_spider's People

Contributors

Stargazers

Watchers

Forkers

wechat_articles_spider's Issues

Recommend Projects

Recommend Topics

Recommend Org