事业单位搭建舆情监测大数据平台建设方案
1.1 背景和现状
随着互联网、移动互联网的快速发展,以及互联网+时代的到来,互联网正迅速融入于社会的各行各业,监管职责相关的舆情已经被越来越多的网民关注,一条小小的敏感舆情会在短时间内广泛传播,引起轩然大波。网络舆论监督在社会生活中发挥着越来越重要的作用,成为群众传递信息、参与社会事务的重要渠道。近年来,中央领导多次强调,要高度重视运用和规范互联网监督,建立健全网络舆情收集、研判、处置机制和引导、反馈、应对机制,对反映领导干部违纪违法问题的要及时调查处理,对反映失实的要及时澄清,对诬告陷害的要追究责任。同时,要加快互联网监督的法治建设进程,对制造和传播网络谣言的行为依法加以打击,推动网络监督走上法治化、规范化轨道,不断提升网络监督的正能量。
在移动互联网大发展的浪潮中,国家许多行政部门都作出了积极的回应,都先后在未来的信息化建设上作出了巨大的投资。传统的舆情监测已经无法帮助其应对变幻莫测的信息监测,要求要有一套更专业,更加便捷智能并且处理舆情事件的系统。基于目前现状,顺应移动互联网发展趋势,客户单位提出建设舆情监测系统,解决用户对网络舆情信息的获取能力和分析能力,从及时性、精准性和全面性等方面提供服务。用户通过平台PC端或者手机移动终端,可随时随地及时了解自己所关注的信息,并可通过移动终端订阅关键信息。
2.1 建设原则
- 可运营性:系统应安全、准确、可靠,保证业务运行;应具有良好的管理、服务、维护手段;
- 可扩展性:系统应能适应未来可能出现的规模增长;便于升级、扩容;
- 开放性:系统应采用主流的、开放的、标准的技术,以保证系统对业务的服务和互联互通;
- 可维护性:系统根据实际需要采用相应的开发语言、技术架构、集成平台。
系统的开发及技术资料应符合国家和相关行业的标注规范。
系统应能较方便的进行应用和数据接口配置。
系统应配备较强的数据维护功能。
可拓展性:采用的技术必须具备良好的升级、扩容、扩充的可行性和便利性。提供开放的外部接口,便于和其他业务系统进行数据和业务的集成,支持百级用户容量,支持负载均衡和集群部署。具备良好的功能和性能扩展能力。
安全性要求:为保证系统安全运行、保护用户隐私,平台应具备良好的安全策略、安全手段、安全环境及安全管理措施。
应建立存储备份机制,实现关键业务数据的自动备份,提高备份系统和备份数据的可靠性,同时提高自动化工作效率并减少人为误操作等因素对业务数据的破坏,为系统和数据恢复提供强有力的保障。投标人应提供备份存储服务的建议方案作为参考依据。
应采取有效的安全策略和技术手段,从数据库、应用软件等各个层面保证系统安全稳定运行。
应用及数据的安全性(包括但不仅限于:数据统计、加密传输、身份认证、访问控制管理等)。
应具备逐级授权管理,用户角色与权限设置由平台租户向下逐级授权管理。
可靠性要求:平台系统能在本工程上稳定运行;应具备7×24小时持续可用。可在每日特定时间段内对系统进行维护。
平台系统试运行期间,在其他软件运行正常情况下,系统本身及连带其他系统产生的系统中断故障数不应超过1次/月;在系统运行期间,引起系统中断引起的故障次数不应超过1次/季度。
平台系统应具备完善的错误处理机制,对系统运行过程中的错误处理有明确的提示信息,指导用户操作。
系统应具备数据的自动转存和恢复机制。
平台系统应具备恢复保障机制,在软硬件平台正常运行的情况下,应用系统故障的恢复时间不超过30分钟。
3.1 项目必要性
当前,互联网舆情可以说是政企工作的晴雨表。以大数据观念变革传统网络舆情管理思维,准确把握网络舆情的内在特征及其在演化过程中的潜在规律,对于新形势下做好网络舆情管理工作具有重要的理论意义和实践价值。
因此,相关部门应采取有效措施做好网络舆情的应对工作。增加信息透明度,准确度,及时地发布权威信息,使谣言破灭,从而有效引导舆论。建立权威专业的组织体系、加强互联网人才队伍建设、采取适当的舆情引导与控制手段,是建立科学有效的舆情应对机制的必需。加强网络舆情分析与研判工作,区分不同性质的涉及本行业负面舆情,可以正确的为相关部门提供决策参考。
3.2 系统架构设计
整体构架分层包括数据采集模块、数据处理模块、数据建模、数据管理和存储模块、数据展现模块及报告分析,将互联网数据采集后,进行数据分析和管理,实现数据可视化:
- 数据采集
数据采集模块由爬虫服务器、爬虫任务调度服务器、爬虫监控服务器、爬虫日志服务器、数据去重服务器以及自然人行为服务器组成。数据采集是通过爬虫服务器集群协作完成的。数据采集面向互联网新闻、论坛、微博、微信等海量数据进行采集,筛选出有用的数据信息。
通过海量的IP地址的地址池以及模拟自然人访问行为,持续不断的扫描所监控的网站,把采集到的数据保存在分布式存储服务集群中,并将所有动作和行为日志记录到日志服务器集群。采集到的数据通过采集数据接口传送给数据处理的情感判断、自然语言识别等子模块。
- 数据存储
数据存储管理模块由大数据分布式存储服务器、用户数据分布式存储服务器、流式处理分布式日志存储服务器、Web服务器、发布服务器、管理服务器等组成。数据存储管理模块负责数据的存储、检索以及发布。
- 数据分析
数据处理模块由用户专题实时计算服务器、实体抽取服务器、地域识别服务器、数据清洗服务器、流传输服务器、情感识别服务器组成。
数据处理服务器对数据进行基础数据处理和舆情信息处理,利用先进的数据分析处理方法对获取到的数据进行分析、处理,得出相关热点、正负面新闻等信息。
- 业务运用
将分析处理过的舆情信息通过系统具体的业务运用进行输出。
4.1 系统逻辑设计
通过甲鱼舆情开发的协作试爬虫技术对互联网信息进行采集,采集包括新闻、论坛、贴吧、博客、问答、评论、微博、微信、APP、视频、公众号、小视频等,信息采集后通过流式处理对数据进行数据缓冲、数据清洗、地域识别、数据统计、热点计算、内容去重、主题识别等。
……
……
……