舆情监测软件采集国外行业网站可以达到秒级别吗?
国内大部分舆情监测软件厂商在那吹牛B,说秒级别采集,那只是针对部分网站,还有一些刚发布的信息,碰到的了系统采集的时间,那么这条信息才会被采集,这就是所谓的秒。今天小编咨询了甲鱼网络舆情监测软件的爬虫工程师王工,了解到了一些舆情监测行业爬虫方面的知识,来给大家分享一下:
1、国外爬数据用作商业分析违法吗?
国外对知识产权保护意识很强,如果知道你在爬他们网站的数据,用作商业分析使用,他们会告到你们公司倾家荡产的。所以爬虫在爬国外网站的数据的时候非常谨慎,尽量模拟人工访问,换IP池等方法爬网站的数据,所以不敢做到秒采集,秒采集不仅会消耗网站很多流量,还会给网站的服务器照成很大的压力。
2、爬虫爬网站是不是每个网站的频率不一样啊?
是的,我们会把网站进行打标签,更新频率高的网站,基本上几分钟甚至几十秒爬一次,但是更新频率低的网站,几个月更新一篇文章的,我们可能一天爬一次,这样主要节省我们爬虫的资源,因为我们每去爬一次网站,对我们服务器也是一种压力,对网站方的服务器也是一种压力。
3、国外的网站难爬吗?
国外的网站不难爬,他们的网站模块很清晰,他们也不会像国内网站那样,动不动就改版,做发爬虫。