舆情监测软件采集到的数据越多越就越好吗?
最近小编联系了一些对数据要求精准度较高的客户,发现小编之前对舆情监测软件的一些认知有误,今天就发布这篇文章来深深反思一下自己吧,在小编之前看来,采集的数据越多就越好,数据条数越多,采集到的网站越多,漏掉数据的可能性就会越低,但是小编这种想法错了。
小编今天也看了几个小编配置的几个市场监督管理局、文旅局、城管等账号,发现里面监测出来的数据条数是很多,但是例如:某某店铺的宣传广告、推广类的微信公众号,汽车4S店的推广信息,甚至还有懂车帝这样的超级垃圾平台都在系统里面,这个对监测到的信息照成极大的困扰,需要安排很多的人力物力去看这个监测账号的信息,去一个一个的排除类似的杂乱信息,这就要求监测人员时时刻刻都要定向排除一些网站,可能一个账号要排除到几十万个账号了,这对监测工作是非常大的挑战的。这个对爬虫工程师来说也是非常繁重的一个活,劳员工伤财的活,主要是为了体现一个软件的数据全面性,这个对于政府的项目可能比较重要,但是对于企业来说,这个完全就是干扰信息。
所以说舆情监测软件有效信息越多才是越好,并不是条数越多越好。