舆情监测软件可以抓取微信公众号的全量数据吗?
几天前,小编还很自信的说自己公司舆情监测软件可以抓取微信公众号全量数据,不会有漏掉的,一条也不会漏掉,可能服务号会有点漏的信息,但是今天,小编的一个客户发给小编一个微信公众号漏掉的数据,然后小编就找技术理论,为什么原因漏掉的,技术也很直接的告诉小编,是因为这个公众号的数据没有采集到,所以漏掉了这个数据,解决方案就是:补充采集这个公众号的数据,之后就不会漏掉了,小编顿时晴天霹雳,严重怀疑自己公司的采集技术。
然后小编就去问公司的技术,微信公众号采集原理是什么,技术说微信公众号的数据不会直接实时传输给舆情监测软件厂商,需要通过Python爬虫去爬,而且微信公众号也做了反爬虫技术,不会把所有信息都放在一个池子中等着爬虫去爬,他们会把所有的数据分开存储,就算按照搜索功能的方式去他们端口去搜索,也搜索不全。一般现在采集微信公众号的原理是:采用不同的模拟人,利用IP池,定期去爬某个用户的新发信息,所有这里面统计微信公众号的用户信息非常重要,定期去统计这批用户信息,然后定下抓这些用户实时的数据到公司数据仓库,然后匹配到每个用户的账号。
看来微信公众号的数据抓取也是一个费时费力的活,目前行业内没有哪家可以做到100%抓取,这是一个漫长的过程,需要大家共同努力。