搭建教育类平台网络舆情监测项目的项目技术方案

甲鱼舆情监测软件 上海舆情监测

搭建教育类平台网络舆情监测项目的项目技术方案

3.1总体功能概述
通过数据中心自有数据、第三方采购数据、元搜索自采数据等,经过文本处理分析、数据挖掘技术,并可自主设置关键词、监测范围,实现对舆情数据的监测、搜索、分析、预警和展示。具体来说,产品主要包括舆情实时监测、重点人物监控、舆情分析研判、人工分析报告、舆论引导管控、智慧采编、用户管理等功能。系统采用自主知识产权的协作式爬虫技术进行海量互联网数据的采集,主要包括以下功能:
1.个性化定制采集
(1) 实现对互联网上舆情信息进行自动的增量采集。可定时运行,也可7*24小时运行,可设置采集时间间隔最短为1分钟。
(2) 支持多线程采集,信息采集的延时可定置。
(3) 可以便捷地对采集目标网站进行可视化管理,配置出采集任务文件,加入调度过程,可以任意修改,增加,移除监测目标。
2.数据采集
(1)系统支持对网站、论坛、博客、微博、微信、APP等信息采集(或数据云端导入),主流新闻客户端,微博、微信公号采集频率最快需达到分钟级,定向监测采集的信息源可随时根据需要不断扩充。
(2)系统支持不少于30000个网站(或APP)3000个版块(或栏目)的网站信息采集,论坛不少于3000个,电子报刊(数字报)不少于1000份。
(3)系统支持不少于2000个社交媒体账号的信息内容采集。
(4)可以根据关键词即时检索App、微博、微信、Twitter、Facebook热点信息,并可实现按转发量/转载量、跟帖量/评论量等排序。
(5)满足定向数据监测需求,可定向监测指定站点的新闻、论坛、贴吧、博客、新闻APP、以及指定账号的微博、微信、Twitter、Facebook数据。
(6)可提供完整的舆情相关关键词词库以及相关行业词库、专业词库,具备关键词智能聚类、热词新词发现能力。
(7)监测数据准确性较高、相关性高,不低于90%,监测数据纯净度高,垃圾数据不能高于10%,监测数据可实现排重,数据及时性高。
3.采集数据全面
(1) 新闻网站采集:能依据设置的新闻网站域名,采集新闻网站内容。设置简单,能自动识别正文页面,能过滤网页噪音,提取正文,进行增量采集;采集要素包括:标题、正文、发布时间、作者、来源等。
(2) 论坛采集:对论坛发帖进行实时采集,具有较强的扩展功能,能够较大程度的适应用户的各种信息采集的需求。具体包括:支持主帖、回帖采集;支持需要用户名和密码认证后才能访问的论坛发帖采集;任务设置简单,支持智能识别、自动匹配其插件类型;能过滤网页噪音,进行增量采集;采集要素包括:标题、作者、主帖和回帖、时间、点击和回复数等。
(3) 博客采集:支持主流博客,设置简单,可对人物和话题进行定制和采集。可采集博客的标题、内容、发布时间等。
(4) 实现境外社交媒体账号的言论以及谈及该账号发帖信息内容、数量、网站等数据的采集。包含时间、来源、正文、标题、链接、评论、转发等字段。
(5) 实现微博、微信公众号和APP监测,相关数据可通过投标人的数据推送服务实现。
4.数据预处理
(1) 支持格式文档文本自动解析功能,并可对解析后的内容进行自动分类、自动排重、自动摘要/关键词抽取等智能化处理。
(2) 多语言处理功能:可自动处理并保存中英文信息,对于其他语言可在完善语种词典后进行自动处理。
(3) 智能文章提取:对于文章类型网页,可以无需配置,直接自动提取文章正文与标题,以及作者发布日期等,自动去除广告,栏目,版权等无关的垃圾内容。
数据框架流程

3.2数据源配置
1.数据来源:甲鱼数据平台采集数据、接口数据等。
2.数据类型:新闻、社交、论坛、电商、贴吧等互联网数据。
3.数据规模:集群数据。
3.3数据采集功能
3.3.1监测数据源
监测数据源包括新闻、视频、平媒、论坛、贴吧、博客、微博、微信、新闻客户端、境外等网站信息,采集信息包括标题、URL、发布时间、正文、图片、发布媒体名称、信息来源、记者/作者/发布者姓名、摘要、转发数、评论数、发布人粉丝数、阅读数、粉丝及与目标信息相关的多媒体信息等。
3.3.2数据获取范围
?新闻
新闻及综合类网站的采集,例如各大新闻门户网站;根据不同类型的新闻站点,自动解析网页格式,采集分析得到结构化数据。
?平媒
包含3000+家电子报纸和平面媒体
?论坛
全国重点论坛及各地方论坛
?贴吧
百度贴吧2200W+子频道全站内容全部采集
?博客
博客类型的网站的采集,例如新浪博客、网易博客等博客类网站;根据不同类型的博客,自动解析网页格式,采集分析得到结构化数据。
?微博
微博类型网站的采集,包含14.7亿微博账号,例如新浪微博、腾讯微博、facebook、twitter等国内外微博类社交媒体网站。
?微信
采集2200W+微信公众号所发布的信息。
?新闻APP客户端
新闻类APP是APP传播中的主流,包括网易新闻客户端,澎湃新闻客户端等等新闻客户端资源,主要通过网络流跟踪技术进行采集,获取客户端背后的网络流向,模拟网络数据流的交换进行数据的采集。
?境外
包括境外2000+主流新闻站点和社交媒体内容采集,支持多语种采集。
?云端导入数据
系统可通过接口接入第三方数据或者云端导入数据。
3.3.3数据采集
?专利协作式爬虫技术突破技术瓶颈,采集速度无人能敌
?每日采集去重原创信息近1.5亿条
?每日评论采集量近3亿条
?20亿电商数据累计
?实现高复杂度APP内容的采集,其中境外数据达5亿余条
3.4信息索引功能
3.4.1信息索引模块
信息索引模块要求系统能对结构化和非结构化数据进行综合管理,核心功能要实现信息的统一存储管理与全文检索,同时提供对包含元数据信息的半结构化数据及关系型数据库的良好支持。
◆支持多种检索手段,100%查全率前提下的高速响应。
允许使用任意字、词、片段、语句进行全匹配检索,支持中英文或者其他语种的多语种混合检索以及多种数据类型的混合检索。
?支持多条件组合检索,提高查找准确率。
?二次检索:在上次检索的结果中检索相关信息,二次检索时可以指定字段检索也可以不指定字段检索。
?联想检索通过文本词向量技术对用户搜索词进行深度分析,进行用户可能关注的搜索词推荐。
?模糊检索:在精确匹配找不到信息的时候,可以用模糊检索来找出去检索内容相关的信息,包含部分检索内容的信息。
?拼音搜索、纠错搜索:基于先进的字元索引技术,对于用户搜索词进行自动扩展和纠错,以便支持拼音搜索和纠错搜索。
?区域搜索:支持标题搜索、分类搜索、日期范围搜索、专题搜索、信息外部属性搜索。
?正/负面检索:仅在正/负面信息中检索。
?预警信息检索:在已预警信息中进行检索。
3.4.2信息采集策略管理模块
3.4.2.1弹性配置适应
我们采取协作爬虫采集数据方式,支持采集字段的增减,而无需修改整个采集规则。采集规则配置通过后台上传后,会自动校验配置规则,然后由协作爬虫获取根据自动任务的均衡性,获取任务。在协作爬虫数据采集时,发现网站对应的配置规则失效,会自动向后台报警,后台进而将该警报推送给配置工程师,以通知其迅速解决问题。通知流程示意图所示:

3.4.2.2智能任务分发
采集模板建立后,总任务服务会对所有爬虫机进行采集任务分发和协作调度,将任务均衡分派的各采集机中,并对采集机任务进行统一管理和去重。对于任务分发和协作,采取分布式负载均衡方式,示意图如下:

3.4.2.3高效统一去重和数据交换
当大量爬虫统一工作的时候,需要有一个高效的中间节点进行数据的去重和分配,进行每个节点的数据搜集。系统通过一个分布式高安全性的快速内存数据库进行Url的去重和协作式爬虫间的安全数据交换。

3.4.2.4新站点网站发现
当系统运行一定时间之后,通过对全网范围内所有网站进行舆论出现率分析,可以获得关注舆论最为热点的站点,与预警舆论出现最热的站点,并且可以提供其监控等级使舆情系统对它进行更为高速的信息抓取与分析。
3.4.2.5镜像网页识别
当爬虫发现网页内容相同且主域名相同,则进行镜像网站识别发现、判断信息内容的重复度,当重复度大于泵值后,主动识别信息镜像,并对该网站进行镜像标记和识别。
3.4.2.6信息源管理模块
用户可以在信息源管理平台上添加信息源和查询已配置的信息源。
?添加配置(信息源):支持以下行业:综合、化工、政府、汽车、房产、财经、IT、文体、游戏娱乐、旅游、饮食、健康、时尚&女性、亲子&育儿;支持的媒体类型:论坛、博客、微博、视频、平面媒体、行业网站、微信、长微博、APP、评论;可以按低、中、高的优先级设置信息源。

?查询已配置信息源:可以查看已配置信息源状态和记录。

3.5数据清洗功能
协作式爬虫采集信息后需经数据的清洗,去重、去杂等操作,具体流程如下:

3.5.1过滤机制
过滤不规范的视频数据、过滤垃圾数据、数据分类过滤、过滤非负面数据和非用户关注的。

3.5.2数据URL去重
整个Url排重过滤,一般的方法是:进来一条信息,计算对应的hash,在分布式内存去重数据库中进行hash比对,若存在,则过滤掉,否则,入库。

3.5.3数据去噪处理
根据全网采集到的数据,建立自动分词机制,并计算词语间关联紧密程度,以此来建立噪音词联想库,不断训练系统废文,现已建立专门的废文分类。

3.5.4其他清洗处理
?模板库
?海量模板库
?模板自动分配
?模板失效检测
?模板详细分类
?无模板网站自动计算
?标题自动抽取
?HTML标签补全分析
?元数据自动抽取计算法
?正文区域加权
3.6文本挖掘与智能分析
3.6.1数据清洗
(1) 内容过滤:可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。
(2) 信息识别:具有精准、智能、快速的网页正文提取功能,能在网页中准确提取文章标题、作者、正文、图片信息、正文中的图片信息、JS脚本的src,回复等要素信息,支持一些重要的HTML转义字符的自动还原。
(3) 自动排重:正文抽取准确。对同一条信息能实现排重,在首页显示该信息被网站转载的数量、能将重复转载的情况进行隐藏,并随时调阅其他网站的转载情况。
(4) 相似性检索:对于给定样本文献,在文献数据集合中查找出与之内容相似 的文献的技术。相似性检索能够自动地对文档进行特征 抽取,构造文档的“指纹”,然后根据该“指纹”到文档“指纹库”中检索与该文档相似或相同的文档。
3.6.2自动分词
采用中文分词技术,分词效率高,准确性好,可自动识别人名、组织等未收录词,能够识别QQ号、手机号、身份证号等。
3.6.3分类/聚类
(1) 自动分类:建立关键词和基于语义的分类模型,实现多级自动分类,同一信息可属于多个类别。可自定义设置信息类别,按不同板块、不同栏目进行分类。
(2) 自动聚类:采用聚类技术,支持利用文档的内在特征信息进行智能分析,将指定时间内不同来源、不同标题的相似内容的信息聚合在一起。
(3) 区域归类:对采集的数据按不同板块、不同区域进行归类。
3.6.4数据标识
(1) 主题词标引:对文本内容进行主题分析,在准确提炼和选定反映文本主题的关键词基础上,生成文本的一组主题词标识。
(2) 自动文档摘要:采用文档摘要技术,能够自动地从原始文档中提取该文档中心内容的短文,从而实现文章内容的精简提炼,并可由用户自由设定摘要的长度、百分比等参数,支持处理中、英文语言的文档。
(3) 实体抽取:从非结构的文本信息中抽取有意义的事实信息,抽取的命名实体包括:人名、地点、时间号等。
(4) 常识校对(政治):常识校对针对文本中存在的政治常识错误进行自动检查和校对,帮助用户快速有效地发现和订正政治常识错误。
3.7数据库安全
3.7.1数据库加密技术
本平台数据库加密采用哈希(Hash)加密的方法,哈希加密是单向加密,即,被加密的字符串是无法得到原字符串的。在比较时并不是将加密字符串进行解密,而是将输入的字符串也使用同样的方法进行加密,再和数据库中的加密字符串进行比较。这样即使知道了算法并得到了加密字符串,也无法还原最初的字符串。对数据库保存的敏感数据有较好的数据库保护性。

3.7.2绑定数据库IP
通过防火设置数据库允许访问的IP地址;数据库中创建用户并授权,同时限制只能在某个IP或者IP段上的机器才能访问。
3.7.3数据传输安全
数据传输采用SSL秘钥加密方式,安全套接层协议能使用户/服务器应用之间的通信不被攻击者窃听,并且始终对服务器进行认证,还可选择对用户进行认证。SSL协议要求建立在可靠的传输层协议(TCP)之上。SSL协议的优势在于它是与应用层协议独立无关的,高层的应用层协议(例如:HTTP,FTP,TELNET等)能透明地建立于SSL协议之上。SSL协议在应用层协议通信之前就已经完成加密算法、通信密钥的协商及服务器认证工作。在此之后应用层协议所传送的数据都会被加密,从而保证通信的私密性。具体实现过程:WEB用户登录认证客户端浏览器用ajax向服务器端WEB Server发生请求动态密钥(DKey), WEB Server 生成DKey(随机码)发送给客户端,客户端用特殊的加密方法加密输入的用户名和随机码得到加密信息,用MD5加密输入的用户密码和随机码得到加密信息,然后提交给服务器验证。服务器用特殊的解密方法解密出用户名与数据库中的用户名比较;用MD5加密数码数据库中的用户密码得到加密信息与客户端提交的得到加密信息比较,比较相等则登录成功,同时删除动态密钥(DKey)。
?数据的保密性
信息加密就是把明码的输入文件用加密算法转换成加密的文件以实现数据的保密。加密的过程需要用到密匙来加密数据然后再解密。没有了密钥,就无法解开加密的数据。数据加密之后,只有密匙要用一个安全的方法传送。加密过的数据可以公开地传送。
?数据的一致性
加密也能保证数据的一致性。例如:消息验证码(MAC),能够校验用户提供的加密信息,接收者可以用MAC来校验加密数据,保证数据在传输过程中没有被篡改过。
?安全验证
加密的另外一个用途是用来作为个人的标识,用户的密匙可以作为他的安全验证的标识。
3.7.4系统扩展能力要求
系统具有未来与其他业务系统进行融合的能力,可根据其他业务系统的需要灵活提供原始数据、分析结果等的数据支撑服务,并分别开设接口。
对于互联网信息之外的其他渠道和类型的异构数据,例如第三接口数据、自产文献资源、外购数据、云端导入数据等,在借助相关信息整合工具、经人工干预之后,系统能够进行统一处理和整合,将各种数据进行资源整合和集成管理与利用。
3.8性能指标
(1)采集与分析能力
准确性:舆情话题监测的误检率和漏检率在3%以下,舆情话题演化分析的准确率大于95%,舆情话题溯源分析和传播路径分析的正确率大于85%,关键词和摘要的准确率大于95%;关键词提取准确性大于95%;
响应速度:信息采集延迟不超过20分钟,重点网站、账号延迟不超过5分钟,舆情推送速度<2分钟。
(2)系统稳定性
系统能够满足7*24小时工作,整个系统平均年故障时间控制在8小时以内,即可靠性不小于99.9%。
(3)系统可维护性
提供服务器系统管理与维护、操作系统管理与维护、应用系统软件管理与维护、数据库管理与维护以及数据库备份、应用系统备份、灾难事件处理等。
(4)系统兼容与可扩展性
所有开放接口都遵循通用软件系统标准规范制定,支持标准数据协议JSON/XML,具备根据实际业务需要快速构建出合适功能的能力。
(5)全文检索
数据规模:支持近百亿级舆情数据的全文检索,索引数据大小达TB级。
索引速度:索引速度达到1万条文档每秒。
实时性:数据从入库到检索可见延迟低于30秒。
响应时间:检索速度在毫秒级,90%检索请求响应时间延迟低于1秒。
并发支持:系统每秒处理请求事务大于2000。
(6)分词、词性标注
分词词性标注准确率、召回率达到99%以上,运行速度快,达到1M/s。
(7)主题词
主题词提取准确率达到95%,系统运行速度快,达到1000篇/秒以上。
(8)实体词提取
人名、地名、机构名实体词提取准确率、召回率均达到99%以上,系统运行100000篇/秒。
(9)垃圾过滤
有效过滤垃圾95%以上,正常文章错判率<3%,系统运行100000篇/秒。
(10)自动分类
分类精确度:自动分类的准确率达到86%-90%,规则分类准确率达到95%以上;分类速度最高可在100000篇/秒。
(11)自动聚类
自动聚类准确率达到90%以上,类内文章准确率达到95%以上。
聚类速度:10000篇文档用时1秒钟。
(12)情感倾向性判断
情感倾向性判断准确率达到90%以上,系统运行快速50000篇/秒。
3.9渠道兼容支撑能力
PC端浏览器兼容性,满足主流浏览器兼容:
搜狗浏览器,火狐浏览器,谷歌浏览器,360浏览器,QQ浏览器,苹果浏览器,IE8及以上版本浏览器,UC浏览器,猎豹浏览器等。
移动客户端支撑情况:
同步支持安卓、IOS系统的手机客户端。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注