ByteNoteByteNote

字节笔记本

2026年2月19日

wechat-spider:开源微信爬虫,支持公众号文章、阅读量、评论数据采集

当微信公众号数据采集成为刚需,如何高效、稳定地抓取公众号文章、阅读量、点赞和评论?wechat-spider 用 2.8k stars 的成绩给出了答案:基于中间人代理的开源微信爬虫方案。

wechat-spider 简介

wechat-spider 是由 striver-ing 开发的开源微信爬虫项目,支持抓取公众号所有文章、阅读量、点赞量和评论内容。该项目采用基于中间人(mitmproxy)的抓取方式,支持多平台微信客户端(Android、iPhone、Mac、Windows)。项目在 GitHub 上拥有 2.8k stars 和 627 forks。

核心定位:开源微信爬虫,易部署、持续维护

核心功能

  • 检测公众号每日新发文章:自动监控目标公众号的新文章
  • 抓取公众号信息:获取公众号基本信息
  • 抓取文章列表:获取公众号历史文章列表
  • 抓取文章信息:获取文章标题、内容、发布时间等
  • 抓取阅读量、点赞量、评论量:获取文章互动数据
  • 抓取评论信息:获取用户评论内容
  • 临时链接转永久链接:将微信临时链接转换为永久链接

技术栈

技术用途
Python主要开发语言 (99.4%)
mitmproxy中间人代理,拦截微信请求
MySQL数据存储
Redis任务缓存
Docker容器化部署

项目统计

特色优势

  1. 免安装:支持 macOS、Windows,双击软件即可执行
  2. 自动化:配置好监控列表后,每日自动抓取
  3. 好对接:MySQL 存储,方便数据处理
  4. 不漏采:任务状态标记,防止遗漏
  5. 分布式:支持多微信号同时采集

数据示例

1. 公众号数据

包含公众号名称、头像、简介等信息

2. 文章列表数据

包含文章标题、摘要、封面图、发布时间等

3. 文章数据

包含完整文章内容、作者、原文链接等

4. 阅读点赞评论数据

包含阅读量、点赞量、评论量等统计数据

5. 评论数据

包含评论用户、评论内容、点赞数等

环境要求

  1. MySQL:存储抓取到的数据及任务表
  2. Redis:任务缓存,减少 MySQL 操作次数

安装配置

1. 安装 MySQL

macOS

bash
brew install mysql
brew services start mysql

Windows

下载 MySQL Installer 进行安装

2. 安装 Redis

macOS

bash
brew install redis
brew services start redis

3. 安装证书

访问 mitm.it 下载并安装 mitmproxy 证书

iPhone

  1. 下载安装证书
  2. 设置-通用-关于本机-证书信任设置
  3. 开启 mitmproxy 选项

Android

  1. 安装证书
  2. 设置-安全-信任的凭据
  3. 查看证书是否存在

Windows

  1. 双击运行证书
  2. 安装到本地计算机
  3. 选择"受信任的根证书颁发机构"

macOS

  1. 双击安装证书
  2. 打开 Keychain Access.app
  3. 选择 login 和 Certificates 中找到 mitmproxy
  4. 设置为 Always Trust

4. 配置代理

确保手机和运行 wechat-spider 的电脑在同一网络

iPhone

设置-无线局域网-所连接的 Wifi-配置代理-手动 填写服务器 IP 和端口 8080

Android

设置-WLAN-长按所连接的网络-修改网络-高级选项-手动 填写服务器 IP 和端口 8080

macOS

系统偏好设置-网络-高级-代理-Secure Web Proxy(HTTPS) 填写服务器 IP 和端口 8080

使用说明

1. 配置 config.yaml

yaml
mysql:
  host: localhost
  port: 3306
  user: root
  password: your_password
  database: wechat

redis:
  host: localhost
  port: 6379
  db: 0

auto_create_tables: true  # 首次启动设为 true,之后设为 false

2. 创建数据库

sql
CREATE DATABASE wechat CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

3. 启动 wechat-spider

bash
python main.py

4. 下发公众号任务

录入数据到 wechat_account_task 表,填写 __biz 字段,如:MzIxNzg1ODQ0MQ==

5. 开始采集

在微信客户端点击任意公众号,查看历史消息,即可触发采集

Docker 部署

bash
# 克隆仓库
git clone https://github.com/striver-ing/wechat-spider.git
cd wechat-spider

# 使用 Docker Compose 启动
docker-compose up -d

注意事项

⚠️ 风险提示:该爬虫基于中间人方式,可能存在封号风险,请酌情使用

  • 建议用于个人学习研究
  • 遵守微信相关使用条款
  • 控制采集频率,避免触发风控

适用场景

  • 公众号内容监控和分析
  • 竞品分析和市场调研
  • 内容聚合和资讯平台
  • 数据挖掘和 NLP 训练

总结

wechat-spider 是一个功能完整的微信爬虫解决方案,其优势包括:

  • 功能全面:支持文章、阅读量、评论等完整数据采集
  • 易于部署:提供 Docker 支持和打包好的可执行文件
  • 跨平台:支持全平台微信客户端
  • 持续维护:项目持续更新,社区活跃

对于需要微信公众号数据采集的开发者来说,这是一个值得参考的开源项目。

分享: