抖音小视频如何实现视频中文字语音的网络舆情监测
对舆情比较洁癖的企业跟单位,一定特别关注抖音的网络舆情监测,因为微博、知乎那些平台的网络舆情监测太小儿科了,没有一定技术含量,比较有技术含量的就是小视频监测技术了,因为国内对小视频监测才是刚起步,因为小视频也才这几年发展起来的,没有几家舆情监测软件厂商会花大力气去监测小视频这个平台。而且小视频这个平台做了反爬虫处理,很难爬到这个平台的全部数据,爬虫只能爬到这个平台的部分数据,那么大家一定非常好奇,抖音短视频这个平台的数据是怎么样爬到的,有没有厂商可以爬取这个平台全量数据呢?今天小编有幸咨询到甲鱼网络舆情监测公司的张总,由张总来跟大家解释一下目前他们公司的抖音短视频的爬取能力:
1、国内没有任何一家公司可以爬全抖音100%的数据
2、抖音用户数达到6亿以上,而且还在不断的增加,而且抖音的数据量每天都在不断的增加
3、目前国内大部分舆情监测软件厂商只能爬取抖音部分数据,因为抖音是一个APP,对他们的数据做了反爬虫加密处理,所以一般python技术对这个平台基本上没有什么用,一般的爬虫,抖音1000条数据可以爬到100条就算非常不错的。
4、目前比较有效的爬抖音数据的方法是:根据抖音的账号去爬,实时去爬一批固定的账号,这种比较消耗服务器资源,而且有些时候抖音会对固定的IP进行限制,而且需要海量的IP池来做这个事情,模拟人工来爬抖音固定的账号数据,但是这个也没有办法100%怕全所有的数据,因为抖音账号太多了,舆情软件厂商不可能几亿个账号都爬。而且这种方法的时效性也非常不好,经常会出现延迟采集的情况。
5、目前短视频是可以监测视频中的文字的,这个一年的成本大概要上千万,一般的小舆情监测软件厂商根本没有办法实现,他们主要把所有的抖音视频下载下来,然后切片,利用OCR图片识别技术来识别视频中的文字。目前国内这一块功能是有了,但是时效性还是有些欠缺。主要缺点是成本太高。
6、目前短视频是可以监测视频中语音的信息的,这个技术含量也不高,主要把短视频中的语言部分提出来,利用语音转文字识别技术来实现,目前这一块在微信聊天中应用比较多。