微信公众号数据的采集有两个途径:
1,搜狗微信:因为搜狗与微信有合作,所以可以用搜狗微信进行采集;这个一个公众号只能采集最新的10条,要是获取历史文章就捉襟见肘了。而且要注意爬取频率,频率高会有验证码,这个平台只能进行小数据量的采集,不推荐。
2,微信公众号平台:这个微信的官方公众号平台,首先得申请公共号(因为微信近期开放了在公众号中插入其他公众号链接的功能,这样才可以进行数据的采集),然后在创作管理-图文素材-列表视图-新的创作--新写图文-点击超链接就可以进行爬虫的操作。这个可以爬取历史文章,是推荐的方式。(但要注意的是,这种频率过快,或者爬取太多,会封帐号,24小时,不是封ip,是封帐号。目前没有很好的办法,我个人使用的是加随机缓存时间,模拟人浏览的方式,牺牲时间换取结果。)
主要以第二种途径为主(微信公众号平台):
1,首先用selenium模拟登录微信公众号,获取相应的cookie保存下来。
2,拿到cookie,requests请求url,就会跳转到个人首页(因为有cookie的缘故),这个时候的url是具有token,而且每次请求都是不一样的token。用正则表达式将他获取下来。
3,构造data数据包,模拟get请求,返回数据(这个打开F12就能看到)。
4,拿到数据,解析数据。
这就是以微信公众号平台的数据采集思路,具体代码,网上有很多,这里就不贴出我的了,都大同小异,就是构造数据包,给服务器提交数据包,拿到返回数据,解析数据的步骤,代码简单,自己可以根据思路,尝试写写(写不出来想要代码的请私信我)。
注意:恶意爬虫是一种危险行为,切记不要恶意地去爬取某个网站,遵守互联网爬虫规范,简单学习是可以的。