目前舆情监测软件采集抖音数据的情况是怎么样的?
时代在发展,舆情监测行业也在发展,采集技术跟速度都是一日千里,虽然前几期小编都有给大家介绍抖音的采集技术,从采集难,数据少,时效性差等,慢慢的发展到现在的采集全,速度快等特点,下面小编就来给各位领导汇报一下目前舆情监测软件厂商采集抖音数据的一个情况。
采集方式:
甲鱼采集系统进行协作式爬虫通过协作方式模拟自然人访问行为,持续不断的扫描抖音这个网站的数据,进行数据爬取,该方式可以高效及时的进行数据获取,支持千万级别的网站采集,规模可根据不同实施阶段,灵活可伸缩部署。爬虫采集服务集群通过海量的IP池,模拟自然人访问行为,持续不断的扫描所监控的网站,把采集到的新数据保存在存储服务集群,并将所有动作和行为记录到日志服务集群。整个平台通过采集数据接口对接到后端的情感判断、自然语言识别等模块。
目前采集数据情况:
1、数据全面性:基本上抖音整个平台的账号数据都有采集,很少会出现漏掉数据的情况。
2、数据的时效性:平均采集时效性在1个小时以内。
3、字幕监测:目前才用抽帧的技术,实现了抖音所有视频的文字内容识别。
4、抖音评论数据采集情况:目前抖音评论数据只采集了部分,主要采集政府官方认证账号,粉丝数大于1万的账号的评论数据。
5、抖音语音内容监测:目前暂时有支持普通话,地方方言暂不支持。