银行业舆情监测系统(通用7篇)
网络舆情技术是有效掌控网络、促进社会主义和谐社会建设的重要技术手段。目前,网络舆情技术主要包括:话题检测、话题跟踪、自动摘要、自动分类、爆发趋势分析、舆情预警等。
1)热话题检测:可以根据新闻来源的权重、发言时间的集中程度等参数,发现指定时间段内的热门话题。并可以根据主题关键词和回帖数进行整体语义分析,识别出所有敏感话题。
2)话题跟踪:可以对文章进行聚类,分析新发表文章、帖子是否和已有文章主题是同一话题。
3)自动摘要:可以对所有文章、话题倾向自动分析,形成摘要。
4)舆情趋势分析:可以针对某个主题分析人们在不同的时间段内的热度。
5)突发事件分析:可以对突发事件进行跨时空的全面分析,得出整个事件发生的全貌并对事件的下一步的趋势进行预测。
6)舆情报警:可以对突发事件、涉及内容安全的敏感话题进行及时发现并产生报警。7)舆情统计报告:根据舆情分析引擎处理后得到的数据生成相应报告,用户可通过浏览器进行浏览,并提供了检索功能,可以根据指定条件对热点话题、倾向性等自己感兴趣的话题进行查询,得到话题信息的详细内容,提供决策支持。
网络舆情技术在金融行业中的应用
网 络舆情技术从诞生起就显示出巨大的威力,涉足面也愈来愈广,已经从单纯的社会领域走入了专业性更强的金融投资领域。由于信息通讯技术和互联网的发展,互联 网金融信息对金融市场的影响已经越来越不容忽视。这些信息关乎着整个金融行业的发展和稳定。网络舆情技术在金融行业中的应用主要体现在3个方面:
1.辅助投资工具 目前很多人把网络舆情技术视为新的理财工具,并不夸张,某一个新事件的发生或者是网络上对某支股票的热议都在很大程度上左右着金融实践者们的行为,同时进一步影响着股市变化的趋势。
申银万国研究所首席经济学家杨成长认为,网络舆情技术在我国的逐步推广,将对金融创新、衍生产品等有促进作用。他表示,“未来的资本市场将逐渐转型为市场股民化、股民网络化。”
中科精诚总经理梁正之则表示,“目前网络舆情这一技术仅为一些监管部门运用,未来我们将研究如何逐步向机构投资者和中小投资者推广应用。”
中 科院计算技术研究所网络重点实验室副主任余智华表示网络舆情技术是基于内容的智能分析技术,金融行业可以建立一个与当前流行的股票软件和金融市场信息采集 分析系统功能定位完全不同的信息跟踪分析技术。并且通过系统监测互联网上的相关新闻报道、相关评论等,跟踪分析这些信息与金融市场之间的关联关系,将这些 信息按照知识模型体系进行分析与组织,为投资者及相关机构提供便于分析利用的、相互关联的信息来源。
2.声誉风险管理
近年来,我国各金融机构按照国家有关金融监管制度,初步建立了金融稳定工作协调机制,制订了应对突发事件的相关应急预案。然而,随着社会的不断发展,互联网 已经成为思想、文化、信息的集散地和社会舆论的放大器。同时由于中央和地方政府对网络舆情的高度重视及积极回应,互联网业已成为政府治国理政、了解社情民 意的新平台。金融机构如何建立有效的声誉风险管理体系,实施有效舆情监控成为当务之急。尤其是近两年来,金融行业的“声誉危机事件”屡见不鲜,致使相关金 融机构形象受损、信用度滑坡,并严重影响了金融安全和社会稳定。
为 更好地净化网络舆论环境,维护金融稳定,进一步帮助金融机构树立品牌形象、加强声誉风险管理,网络舆情技术在金融行业中的应用必不可少。它能有效防止负面 信息的肆意传播和舆情失控,协助金融机构提高网络舆论引导能力,营造积极向上的舆论环境,为金融机构快速健康发展提供强有力的舆论保障。
3.辅助决策管理
辅 助决策管理系统主要作为相关管理机构的辅助决策工具,通过网络舆情技术,收集分析金融市场信息,并与传统的金融分析数据相结合,以决策主题为重心,以传统 金融分析方法为基础,网络舆情技术为辅助,构建决策主题研究相关知识库、政策分析模型库和情报研究方法库,建设并不断完善辅助决策系统,为决策主题提供全 方位、多层次的决策支持和知识服务。为金融管理研究机构以及政府部门提供决策依据,起到帮助、协助和辅助决策者的目的。
软件监测的必要性
1.金融行业信息呈“浪涌”态势,出现时间段相对集中、信息交互量大,交互次数频繁人工搜集到的信息犹如杯水车薪,传统的搜索引擎根本无法满足搜索要求。
2.金融市场行情多变,投资易因重大事件影响而变动、消费者思路易受外界影响,要求金融业要具有前瞻性。然而信息以光速传播,人工搜索到的许多信息已过期,无使用价值,导致投资决策的滞后,轻则延误商机,重则全盘受损。
3.互联网上海量信息中包含海量垃圾,要浪费大量时间去鉴别。
4.对于可用信息寻根溯源,了解传播途径,辨别官方信息还是民间发布,人工监测太过繁琐。
5.所有找到的信息,都需要一篇篇保存,效率低。
互联网时代是人类历史上一个空前伟大的技术革命时代。现代信息技术、通讯传播技术、网络技术等众多现代化的传播技术已渗透到社会生活的各个领域。互联网广泛性、即时性、开放性、共享性和互动性的特点及丰富多彩、方便实用的应用形式决定其日益成为反映社情民意的重要阵地, 网上热点层出不穷, 网络舆情对国家事务、公共事务决策的影响力也日益加大。历史原因曾使中国长期处于封闭状态, 国内关于舆情的研究起步较晚, 目前迫切需要提升与之相应的理论和技术支持。舆情分析与监测是信息深加工, 以往“剪报”式低价值粗加工的信息服务, 虽可按主题范围搜集, 但提供的结果仅局限于单一的信息内容, 传统的单一线性收集方式已不能够满足人类大脑发散思维的需要。
二、网络舆情监测引导的技术支撑
在浩瀚的网络中, 政府如果仅仅依靠人工完成网络海量信息的收集和处理是不现实的。而Web数据挖掘能快速、准确的获得有价值的网络信息, 利用历史数据预测未来的行为以及从海量数据中发现知识。它克服了普通数据库管理系统无法发现数据中隐藏的关系和规则及根据现有数据预测未来的弱点。Web数据挖掘的出现为自动和智能的把互联网上的海量数据转化为有用信息和知识提供了条件。可有效地从Web获取并分析相关舆情, 达到监测、辅助决策和引导的目的, 为网络舆情预警提供了极大的帮助。
(一) Web数据挖掘
Web数据挖掘由传统数据库领域的数据挖掘技术演变而来。数据挖掘是指从大型数据库的数据中提取出人们感兴趣的、可信的、隐含的、明显未知的、新颖的、有效的、具有潜在用处的信息的过程[1]。随着互联网的蓬勃发展, 数据挖掘技术被运用到网络上, 并根据网络信息的特点发展出新的理论与方法, 演变成网络数据挖掘技术。Web数据挖掘是指对目标样本进行分析提取特征, 以此为依据从Web文档和Web活动中抽取人们感兴趣、潜在的有用模式和隐藏的信息, 所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。
根据挖掘对象的不同, 可将Web数据挖掘技术分为三大类[2]:Web内容挖掘、Web结构挖掘和Web使用挖掘。Web内容挖掘是指从Web上检索资源, 从相关文件内容及描述信息中获取有价值的潜在信息。根据处理对象的不同, Web内容挖掘分为文本挖掘和多媒体挖掘。Web结构挖掘的目标是Web文档的链接结构, 目的在于揭示蕴含于文档结构中的信息, 主要方法是通过对Web站点的结构进行分析、变形和归纳, 将Web页面进行分类, 以利于信息的搜索。结构挖掘的重点在于链接信息。Web使用挖掘是从服务器访问日志、用户策略、用户对话和事物处理信息中得到用户的访问模式和感兴趣的信息, 利用这种方法, 可以获知Web使用者的行为偏好, 从而预测其行为。
(二) Web挖掘过程
Web数据挖掘依然遵循数据挖掘的研究思路, 挖掘过程分为四个阶段:数据收集、数据预处理、模式发现和模式分析 (如图1所示) [3]。
1. 数据收集。
网络信息的收集是网络舆情监测的源头, 其广度和深度决定了监测效果。对于明确主题的舆情信息采集, 可以采用搜索引擎方法。由于各个现存搜索引擎索引数据库的构造方法不同, 其索引数据不尽完整, 所以应将多个单搜索引擎搜索结果进行整合、调用、控制和优化。搜索中可以以宽度优先、深度优先或启发方式循环地在互联网中发现相关信息, 可将网络空间按域名、IP地址或国别域名划分为独立子空间详细搜索;或以信息类型为划分, 如HTML格式、XML格式、FTP文件、Word文档、newsgroup文章和各种音、视频文件等。舆情信息检索结果可按不同维度展现, 包括按内容分类、舆情分类、相关人物、相关机构、相关地区、正负面分类等。每个维度下把搜索结果自动分类统计展示, 以便短时间内检索到精确信息。
2. 数据预处理。
因原始Web访问数据的文件格式是半结构化的, 包含不完整、冗余、错误的数据, 需进行提取、分解、合并, 转化为适合挖掘的格式, 保存到关系型数据库表或数据仓库中, 等待进一步处理。数据预处理可改进数据质量, 提高后续舆情挖掘过程的精度和性能。对采集到的舆情进行初步加工处理, 如格式转换、数据清理、数据统计, 对于新闻评论, 需过滤无关信息, 保存新闻标题、出处、发布时间、内容、点击次数、评论人、评论内容和评论数量等。对于论坛, 需记录帖子的标题、发言人、发布时间、内容、回帖内容、回帖数量等, 最后形成格式化信息。条件允许时甚至可直接对网站服务器的数据库进行操作。
3. 模式发现。
利用数据挖掘的算法可发现用户聚类、页面聚类、频繁访问页组、频繁访问路径等隐藏的用户访问模式。若在挖掘用户浏览模式过程中发现选择的数据或属性有偏差, 或挖掘技术达不到预期结果, 需根据反馈结果不断重复以上过程, 通过数据挖掘, 创建和更新用户模式库。模式发现可应用许多相关领域的方法, 但需针对Web数据挖掘的特点做出相应的改进。
统计分析。通过分析会话文件, 可对页视图、浏览时间和浏览路径长度进行各种不同的描述性统计分析 (频繁访问页、频率、均值、中间值和访问量的时间分布等) , 提高网络舆情挖掘的效率和质量。
路径分析。发现站点中最常被访问的路径及其他相关路径信息。信息采集过程中的静态数据可采用该技术, 采用图的方法来分析Web页面间的路径关系。G= (V, E) , 其中:V是页面的集合, E是页面之间的超链接集合, 页面定义为图中的顶点, 而页面间的超链接定义为图中的有向边。顶点v的入边表示对v的引用, 出边表示v引用了其他的页面, 这样形成网站的结构图, 从中可确定最频繁访问路径, 此路径指向的信息极有可能就是互联网上的“热点”和“焦点”。
关联规则。挖掘的是客户的不同浏览事务所涉及的大量数据中项集间的联系规律。利用该算法可从纷杂的网络信息中找出促使网络舆情产生、变化的内在因素, 帮助揭示舆情的变动规律, 挖掘出影响因素间的相互关系。
序列模式。挖掘出交易集间有时间序列关系的模式, 由此确定用户将来访问趋势和模式。在舆情信息汇集和分析的基础上, 可将社会运行接近负向质变的临界值的程度进行早期预报, 提前发现不良事件的苗头, 尽早梳理, 快速应对, 达到预防和控制作用。
分类。先从数据中选出已分类的训练集, 运用分类技术, 建立分类模型, 对未分类数据分类。分类模型由分类器或分类函数确定相应类别, 分类模型类别可由特征化了的属性集合描述。分类发现可描述特殊群体的公共属性。在网络舆情研究中, 可根据自身需求对大量的网络信息初步筛选, 进行分类、分组, 如设置“民生问题”、“突发事件”、“公共安全”、“经济危机”等。然后有针对地进行数据选择, 进行数据集合, 缩小挖掘范围, 避免盲目搜索。从而得到更精确、更有价值的信息。
聚类。聚类和分类的主要目的都是对Web对象归类, 不同之处是聚类未事先定义好主题类别, 需将Web对象特征化后归类分析, 使同类的对象具较高相似度, 而不同的类中对象差别较大[4]。
预测分析。利用历史数据中找出的变化规律, 建立专用模型, 通过此模型对未来数据的种类及特征等其他方面进行预测, 得出未来可能出现的结果。提前预测, 提前防范意外, 为后续工作做好准备, 预测关心的是精度和不确定性, 通常利用预测方差来进行度量。
偏差分析。指发现数据库中的异常数据, 其检验的基本方法是寻找观察结果与参照之间的差别。偏差分析可以对网上虚假信息和不良信息进行及时批驳, 在纠正偏差中使造假和诽谤不攻自破;可以准确及时地挖掘提取与热点事件相关的真实信息, 以形成网上正面舆论导向。
4. 模式分析。
模式分析主要是为了从模式发现算法找到的模式集合中筛选出有趣的模式。精确的分析方法通常由Web挖掘的具体应用来控制。模式分析的形式可以是类似SQL的知识查询机制, 也可以把Web使用数据装入数据仓库, 以便执行OLAP操作。另外, 可视化技术在视图分析中被广泛应用, 数据模型中的变量特征、操作子模式都可用图形化的工具标识, 这对揭示数据中内在本质及分布规律起到很强的作用。
三、网络舆情监测引导系统
为加强对网络信息的控制能力, 特别是动态信息的监测, 有必要利用Web数据挖掘技术建立一套网络舆情监测系统, 实现对舆情采集、监测和预警的信息需求, 为使用者全面掌握群众思想动态, 做出正确舆论引导, 提供分析依据。网络舆情监测引导系统以信息资源管理制度和安全保障体系为支撑, 基于软硬件、数据管理平台, 依托搜索引擎和Web数据挖掘技术。该系统包含四个功能模块:Web舆情采集模块、Web舆情预处理模块、Web舆情挖掘分析模块、Web舆情辅助决策模块 (如下页图2所示) 。
1.Web舆情采集模块。系统应能根据用户信息需求, 设定主题、关键词目标, 通过人工参与和自动信息采集结合来完成信息收集任务。根据不同舆情专题需要输入不同的待采集的目标网址, 自动采集新闻信息, 统一加工过滤、自动分类, 保存新闻标题、出处、发布时间、正文、新闻相关图片等信息, 支持多媒体数据采集, 可自动解析RSS的XML文件, 抽取网页的链接、标题、时间等信息, 支持网页快照功能等。高效、全方位的网络舆情采集, 最大限度地保证信息的时效性、可用性和全面性, 从而为决策分析提供事实依据和数据参考。
2.Web舆情预处理模块。围绕集中管理、分布存储、跨平台发布、实用性, 覆盖舆情监测引导系统的整个生命周期, 保证系统的可扩展性、灵活性和稳定性。
3.Web舆情挖掘分析模块。利用关联规则、聚类、分类、预测、时序模式和偏差分析等多种技术对收集来的舆情进行分析和处理, 提高舆情研判的准确性及内容分析的确定性, 为舆情引导做准备。其功能包括:热点话题、敏感话题识别。图2网络舆情监测引导系统的总体架构即可根据信息出处权威度、评论数量、发言时间密集程度等, 识别给定时间段内的热门话题, 通过关键字布控和语义分析, 识别敏感话题。倾向性分析, 即对于每个话题、每个发信人发表的文章的观点与倾向性进行分析与统计, 了解舆情可能的发展趋势。主题跟踪, 即跟踪某个热门主题回复、跟帖、修改、阅读等情况, 为管理者及时了解该主题的舆情发展状态。自动摘要, 即对各类主题、各类倾向能形成自动摘要, 供决策参考。趋势分析, 即分析某个主题在不同的时间段内, 人们所关注的程度, 并对未来作出科学预测。突发事件分析, 即对突发事件进行跨时间、跨空间综合分析, 获知事件发生的全貌并预测事件发展的趋势。
4.Web舆情辅助决策模块。对可能的突发事件、内容安全性、敏感话题及时发现并报警。通过舆情预警、舆情监测、舆情报告和发布个性化信息等手段, 为管理者和工作人员提供经过舆情分析处理后的有针对性的结果生成报告, 并提供指定条件对热点话题、倾向性进行浏览、检索, 达到辅助决策, 引导舆情向积极健康的方向发展的目的。
四、结论
网络舆情监测与引导是个复杂的技术和管理过程, 必须充分利用Web数据挖掘技术的优势, 建立完善网络舆情监测引导系统, 进一步提升信息化、自动化和智能化, 自觉地把互联网的优势转化为推进社会治理的现实动力和强大合力。
摘要:网络舆情监测与引导是个复杂的技术和管理过程, 必须充分利用Web数据挖掘技术的优势, 建立完善网络舆情监测引导系统, 进一步提升信息化、自动化和智能化, 自觉地把互联网的优势转化为推进社会治理的现实动力和强大合力。
关键词:网络舆情,监测引导,Web数据挖掘
参考文献
[1]Jiawei Han, Micheline Kamber.数据挖掘:概念与技术[M].北京:机械工业出版社, 2001:3.
[2]Raymond Kosala, Hendrik Blockeel.Web mining research:A survey SIDKDD Explorations, 2000:7.
[3]W Hseush, C Pu.A Practical Technique for Asynchronous Transaction Processing[C].In Proc.Of the 15th Inter.Conf, on DistributedComputing Systems, 1995:110-117.
舆情监测系统的设计
舆情监测系统简要定义为:依托专用服务器群,利用搜索引擎、网络爬虫、语音分析等数据抓取技术,对已经添加有界站点的报刊、网站、论坛、微博、微信以及电视节目等各种媒体进行实时监测,将客户所关注的信息通过关键词或主题分类提取、梳理,形成预警信息和分析报告,并通过短信、电话、电子邮件等方式推送给相关人员,为舆情处置和领导层决策提供依据和参考。
舆情监测系统主要功能包括:
(1)可视化终端。客户可通过终端更改监测状态,查看预警信息、重要事件及重要新闻。
(2)舆情预警。智能搜索与人工过滤相结合,及时发现客户关注的负面敏感信息,通过短信、电话、电子邮件等多种方式快速通知相关人员。出现热点事件时,立即在系统内创建预警事件。
(3)重要事件。发生可能对客户产生重大影响的事件时,创建事件并添加关键字进行持续监测。
(4)重要新闻。客户可手动设置重点关注的媒体,当监测内容匹配后,立即在系统相关模块内显示或进行预警。
(5)舆情监测。通过预先设置的主题、关键字、媒体范围,自动将舆情信息进行匹配分类。
(6)舆情搜索。通过设置日期、关键字、排除词等条件,精准定位客户关注的新闻或媒体,提炼具体内容生成摘要。
(7)舆情日报。根据客户关注的焦点,收集整理每日相关舆情,生成日报后发送到指定终端。
(8)研究报告。专业舆情分析师定期(周、月、季、年)分析整理客户企业舆情走势,生成总结和研究性报告,提出有针对性的意见建议。
理想的舆情监测系统,应该具有良好的热点识别能力、倾向性分析能力、信息跟踪能力和突发事件反应能力。此外,舆情监测系统还应具备易于操作、友好交互的用户界面,包括可视化的WEB终端、跨多平台移动客户端等。
舆情监测系统的实施
以某中央企业自行建设舆情监测系统为例:硬件方面需购置专用服务器若干、新添专用宽带线路、设置独立机房;软件方面需组建3~4人的软件工程师团队,系统开发周期2个月以上;人力方面需常设3~4名舆情分析人员,确保7×24小时轮岗值班。初期投入经费不小于500万元,舆情监测系统年运行成本不小于100万元。选择自行建设舆情监测系统的原因主要有:企业性质涉密、主营电信业务、软件开发实力较强等。
对于国有大型建筑企业而言,目前的舆情监测服务已经形成较大规模的成熟市场,舆情监测系统有多种商用产品可供企业选择。供应商主要包括四种类型的公司:第一类是拥有网络信息搜索或文字(中文)信息处理等相关技术的软件公司;第二类是公关、广告公司,这类公司是在传统媒体监测业务的基础上,发展出网络媒体监测业务;第三类是网络营销服务公司,此类公司涉猎范围较广,具有较强的网络资源动员能力;第四类是依托传统媒体延伸出的增值服务,例如:人民网舆情监测室。
如选择第一类软件公司建设舆情监测系统,优势和成本核算情况如下:A公司拥有自主研发的舆情监测系统核心技术,包括B/S架构、专用高速带宽、自动语音分析技术、云计算服务器等;拥有较大规模工程师和客户服务团队,对于客户的各种要求反应较快,系统开发和调整的灵活性强;由于同时面向40余家客户提供舆情服务,单个客户的舆情监测系统运行费用可控制在每年50万元以下。
因此,相比企业投入大量资源自行建设舆情监测系统,选择以上四类之一的商用舆情监测产品,在充分结合企业自身实际情况的前提下,舆情监测系统的建设周期、成本控制等方面有明显优势。
典型的商业舆情监测系统项目实施流程如下:
(1)A公司调查客户企业舆情监测需求,成立项目团队,拟定预设目标。
(2)项目团队同客户企业对接,制定项目实施进度表。
(3)项目团队分析客户企业过往舆情主要来源和扩散路径,划分监测系统的层级和主题,设计舆情监测系统UI。
(4)客户企业根据自身实际,提供各主题下的监测敏感词。
(5)项目团队注入数据,调试系统,舆情监测系统试运行。
(6)客户企业随机发布测试信息,检验舆情监测系统运行效果。
(7)客户企业反馈试运行和测试结果,项目团队对舆情监测系统进行细化调整。
(8)客户企业舆情监测系统正式上线运行,项目团队撤销,设立后期值班和客服人员。
对于国有大型建筑企业而言,舆情监测应侧重于安全质量、突发事故、群体事件、法律纠纷、地产开发、海外经营等方面,每方面对应一个至数个主题,每个主题下设若干关键字词,可有效提高监测针对性。需要注意的是,在舆情监测系统上线运行后,企业要对监测主题和关键字词进行不定期调整,结合自身情况变化进行补充或删减,以确保舆情监测结果的准确性。
舆情监测结果的处置
舆情监测系统投入使用后,对于监测到的负面舆情,应以“早发现,早研判,早处置、早冷却”为基本原则,从源头上防止负面舆情发酵扩散。对舆情预警信息实行“获取预警信息-进行分析研判-转发责任单位-妥善应对处置-反馈处理结果”的闭环工作程序。对于监测到的可能引起媒体炒作、引发舆论危机的事件,由涉事企业及时上报事件详情,提出舆情应对预案,上级企业新闻宣传部门给予认真指导,协助解决问题。
预警信息根据具体内容和可能的危害程度,分为蓝色、黄色、橙色、红色等多个预警级别。黄色以上必须启动处置程序。涉事企业的新闻宣传部门负责人为舆情预警信息转发对象和应对处置第一责任人。
以某中央企业为例,舆情监测系统预警信息处置流程如下:
(1)上级企业(总部)新闻宣传部门收到负面舆情预警,迅速进行分析研判,继而转发至涉事企业(二级企业)新闻宣传部门负责人,同时转发本级相关部门。
(2)涉事企业新闻宣传部门负责人收到舆情预警信息后,及时回复,确认接收状态。
(3)上级企业新闻宣传部门根据舆情预警信息内容,以及调查研判的初步情况,填制负面舆情处置(督办)单,发至涉事企业新闻宣传部门,限期回复。
(4)涉事企业新闻宣传部门对舆情预警事件进行情况了解,对负面舆情进行妥善处置,上级企业新闻宣传部门给予相应指导和帮助。
(5)涉事企业新闻宣传部门依据事件调查结果和负面舆情处置情况,完成负面舆情督办要求内容,在规定时间内将相关材料发回上级企业新闻宣传部门。
(6)上级企业新闻宣传部门收到填报完成的督办材料后,登记存档,同时抄送本级相关部门(办公室、纪委等)。
(7)上级企业新闻宣传部门定期通报全公司负面舆情处置反馈结果,并纳入新闻宣传工作考核评价体系。
需要注意的是,舆情预警信息在传递和处置过程中,要做到对象明确,路径清晰,严防负面信息发生泄露或无序传播,造成舆情上的“次生灾害”。
通过舆情监测系统的建立与实施,可以确保企业系统、科学、快速、高效地分析和预警信息,实现舆情处置的制度化、常态化、流程化。在当今舆情发展态势瞬息万变、反应速度必须以秒为计的时代,舆情监测系统尤其显得愈发重要,已经成为抢占舆论阵地、维护企业形象的基础和保障。但必须认识到,舆情监测系统依赖于媒体数字化和网络化,在技术上具有一定局限性,可能出现数据抓取速度较慢、漏报误报重要舆情等问题。企业在面临重大突发事件、可能造成较大影响的情况下,应安排专职人员,进行有针对性的人工舆情监测,与舆情监测系统形成互补,确保舆情获取的及时和准确。
(责任编辑:李万全)
舆情信息监测服务系统是一个高度集成的专业化数据检索和分析系统,总体上包括舆情信息采集、舆情分析引擎、舆情监测应用三个核心功能。从互联网采集新闻、论坛、博客、微博、平面媒体、微博等舆情信息,并存储到舆情数据库中,并通过舆情搜索引擎对海量的舆情数据进行实时索引。对采集的数据进行智能筛选,萃取准确的舆情信息。舆情分析引擎负责舆情数据库进行智能分析和加工。舆情服务平台把舆情数据库中经过加工处理的舆情数据发布到Web界面上并展示给客户。客户通过舆情服务平台浏览舆情信息,通过简报生产等功能完成对舆情的深度加工。整个系统结合了C/S、B/S两种不同的应用模式,并形成了优势互补。系统共分四大功能模块。分别为:信息采集功能、信息处理功能、舆情分析功能、舆情展示功能。
(1)信息采集
信息采集可自定义监测站点击监测关键词,新闻、论坛、博客、微博。结合元搜索技术(搜索引擎结果补充),确保信息全面性。
定向抓取源:云腾舆情监测分析系统收录7000个监测网站,包含站点数约为15万个站点,对这些站点中的新闻,论坛,博客等实现全面的抓取,同时支持对主流新闻网页分页、评论内容的采集以及对评论点击数、回帖数的抓取。
搜索引擎结果:云腾智能爬虫系统还可以自动跟踪多个搜索引擎的搜索结果,对监测数据进行补充。
自定义URL来源采集频率:除系统常规监测范围外,还可以自定义需要重点监测的信
息,客户可以设定采集的栏目、URL、更新时间、扫描间隔等,以便及时发现目标信息源的最新变化,并以最快的速度将个性化关注内容采集到本地。
(2)信息处理
垃圾信息过滤:基于机器学习的垃圾过滤机制可以自动过滤广告、水贴等无效垃圾信息。
智能去重:采用“文章相似度技术”,根据文档内容的匹配度确定是否重复、去重的级别;根据不同的需要特点分为:URL去重、标题去重、正文去重三个级别。
HTML内容提取:采用自主知识产权的HTML网页文本萃取技术自动提取任意复杂网页中的标题、内容、作者、发布时间等信息,自动跟踪文章分页;对于论坛信息自动分析主贴、回帖以及作者等信息。
快照保存:对于每个经过抓取和处理的网页,系统都存有一个纯文本的备份,方便客户快速浏览,也方便客户查看被删除的文章或帖子。
(3)舆情分析
文章权重计算:综合网站重要程度、文章出现位置、主题相关度、危机程度、点击回复次数、传播数量以及客户自定义规则等复杂参数计算的文章权重,加上基于自然语言处理技术的训练系统,能准确分析出重要舆情信息。
传播轨迹分析:系统可以对于一段时间(自定义范围)内的舆情信息走势进行分析展示,同时可以以不同的载体如论坛、新闻等分类呈现。
自动分类与情感分析:将自然语言处理技术(NLP)应用于舆情监测领域,对信息精准分类并自动做情感分析。
相似文章聚类去重:基于自然语言处理技术,系统根据文章内容相似程度技术相似文章,方便获取同一内容文章的所有传播网站。采用“文章相似性技术”,根据文档内容的匹配程
度确定是否重复、去重的级别;根据不同的需要特点分为:URL去重、标题去重、正文去重三个级别。在详细信息列表里,分为“过滤”与“不过滤”,展示相关文章;媒体覆盖分析:系统可以对于监测信息的媒体类型进行展示,同时对于信息的主要传播媒体自动识别,进行综合分析,以图表呈现。
(4)舆情展示
在舆情信息呈现上,信息监测平台支持多种互联网终端设备和接入方式。除了传统的移动设备Web网页接入方式,还可以通过短信、邮件对信息进行及时推送,同时还可以通过移动设备客户端(Android客户端、iOS客户端、平板电脑客户端等 如图)进行信息交互。
WEB客户界面:基于云计算模式,客户可以使用WEB浏览器随时登陆系统,在客户界面对舆情状况进行全面的了解。客户界面包含了如舆情走势、舆情详细信息、最新微博信息、载体覆盖情况等主要内容,并以列表以及图表展示等可视化方式呈现,方便客户查看。导航栏清晰明了,方便我们中心查看各种分类;实时搜索功能,可以自定义搜索条件查看系统抓取的最新监测信息;支持关键词组分类、媒体类型分类、信息属性分类查看。
舆情预警:预警级别显示,显示当日舆情级别,方便客户整体把握,同时呈现预警信息走势和预警信息列表。建立多个舆情指标,对于突飞舆情自动发出舆情信号,在最短时间内通过邮件方式通知客户,辅助进行舆情干预和引导。
目前国内市场上做网络舆情监测系统的企业越来越多了,下面我们主要探讨下市面上常见的,占有率比较高的几大品牌。
此文只说一下国内的几大厂商,首先说中科点击旗下“军犬网络舆情监测系统”。该公司从信息采集起家,其主要产品应该是它的“军犬网络信息采集系统”,该系统的短处在文本语意分析方面:只能根据关键词进行关注(敏感)信息的匹配,不能形成舆情热点,功能稍有局限。接着说谷尼国际的舆情系统,总体感觉一般,没有很出彩的地方,文本分析能力也很一般,除了互联网上能看到他们的信息,市场上基本看不到它参与竞争。
自媒体时代的到来使得以微博为代表的微博传播媒介治理和网络舆情监测成为舆情研究新课题。在自媒体时代,传播媒介特别是微博传播对于社会发展的积极作用和负面作用同样明显,而法规建设则远远落后于技术发展,因此,“微传播”是把双刃剑备受政企的重视。
微博作为自媒体传播时代的典型代表,其具有很强的信息传播力,特别是轰动性消 息的传播范围之广,对信息当事人影响程度之深令人惊讶。因此,微博成为众多政企 展开网络口碑建设的有效途径,然而由于网络管理机制的不完善、网民结构的多样化 和网络舆情监测手段的缺失,这就必然使得网络传播存在风险。
当下,经济的快速发展,使得整个社会呈现出浮躁感,网上泛娱乐化和炒作现象普遍,人们对负面新闻事件的敏感性增强,这些导致网络负面信息更容易发酵传播,形成负面舆情环境,如果处理不当不及时,对政企形象的破坏将是深远的。
乐思网络舆情监测系统监测数据显示:近段时间,网络上掀起的各类舆情议论潮,陕西的“表哥”事件、广东的“表叔”事件、白酒塑化剂超标事件以及肯德基速成鸡事件就是自媒体时代体现微博舆情威力的典型案例。微博热点事件的偶然集中发酵,使得政企对突然而至的网络舆情危机倍感压力,对事件发生没有心理准备,导致舆情 危机处置严重滞后,不利于网络舆情危机处置第一时间法则。因此,如何突围微博舆情危机,建立有效的网络舆情监测机制成为政企急需解决的问题。
现今,网络舆情危机爆发具有很大的突发性。一条不起眼的负面信息经网络的发酵很可能突然演变成一场网络舆情灾难,而如果缺乏有效网络舆情的预警,突发而来的舆情风暴就会让政企在处理危机时乏力感倍增。
面对自媒体时代网络危机的强劲爆发力,做好网络舆情监控就显得尤为重要。准确全面的网络舆情监测,可以很好地帮助政府企业获取网络微博舆情动态,了解民意民声,实时监测微博相关话题信息的传播效果,监控微博虚假负面信息,在网络舆情危机爆发时可以妥善的、有目的性的针对处置。
以乐思网络舆情监测系统为例。该网络舆情监测系统由两个子系统组成:自动 采集子系统与结果浏览子系统。可以对微博上一切与本地区相关的信息,特别是负面信息进行及时有效的监测,其监测范围囊括各大网络媒介的微博平台,并可对重点微博话 题实施重点监测,最后对检测结果生成各类数据图表和舆情日报周报。
互联网的产生是以蒸汽机的发明为标志的第一次工业革命以来的又一重大发明。互联网带给人类的不仅是一场技术革命,更是一场社会变革,它将引领人类进入一个全新的时代。传统的管理模式、商业模式、思维方式都受到了影响,使创新与变革已成为这个时代的代名词。中央电视台大型纪录片《互联网时代》在肯定互联网给人类生活带来便利的同时,没有忘记警醒人们学会“控制”,因此互联网在带给我们生活上便利的同时,也带来了一些不良的影响。网络舆情是以网络作为传播介质,围绕着突发的或偶发的社会事件的发生、发展与变化全过程,民众对与之相关的社会管理者、企业、个人及其他各类组织在政治、社会、道德等方面所表达出来信念、态度、意见和情绪等,并以字符串、音频、视频信息、表情符号等方式在互联网空间的表达与传播。网络舆情是社会舆情在网络空间的映射,社会舆情及网络舆情是政府应对突发事件应急管理能力的试金石。互联网不仅是社会各阶层表达利益、宣泄情绪、思想碰撞和聚集民意的重要平台,还是突发事件的重要策源地和发酵池,因此,各级政府已经认识到加强网络舆情管理、控制、引导变得更加迫切、重要且复杂,构建并实行与时俱进的网络舆情监测与预警系统更是各级政府部门的共识。
因此,本研究符合大数据时代的数据处理流程,具有的极高的现实操作、指导意义,对当下数据爆发,网络应用广泛的变革时代具有一定的战略意义。
二、当前网络舆情监测与预警的现状与不足
现有网络舆情监测与预警研究已相当普遍,在CNKI通过以“网络舆情”和“互联网舆情”为关键字进行检索发现,2007 年297 篇、2008 年580篇,到2014 年有8578 篇,可见,关注度在呈逐年递增;研究的机构主要集中在国内大学、研究所;研究的主要方向是突发事件如何通过网络逐步演化成为较强影响力、倾向性的网络舆情,以及如何通过现代技术手段(信息采集技术、信息预处理技术、中文分词技术、文本聚分类技术、话题检测算法、话题追究回溯算法、报警设计等)对信息进行采集、识别、分析、追踪与引导等方面对舆情价值进行深度挖掘等。通过研究发现:这些研究的数据收集均是采用地毯式搜索收集或采用主题垂直搜索进行数据搜索收集。地毯式搜索收集主要是把所有信息不加分类,不进行特征比较而是直接进入数据采集,这种方式采集的优点是:数据量大、采集面广;缺点是:数据无针对性、无特征无范围,因此很难设定一个很好的多任务、多层次的数据采集分工机制。主题垂直搜索是从某一个关键词(主题词)入手去查找含有该关键词(主题词)的数据,这种采集方式更有针对性、数据特征相似、采集数据可用性和采集效率比较高,较为流行,如搜索引擎“百度”、“google”等均采用这种方式,但是其有显著的不足:
1.特征不明显的数据采集丢失严重
由于采用的是性质特征(如征地纠纷、砍人、法轮功、东突等关键字)作为权重较高,并以此为重点采集目标进行搜索收集,那么有些特征不明显或者当前特征没有定义的数据就有可能被丢失。
2.采集的范围相对比较窄
由于有些新事物、新术语往往因为系统关键主题词不含有此类信息,所以出现采集不足,造成数据的缺失。
3.数据采集观念落后
既然针对的是公众舆情信息,那么理应更客观全面的搜集舆情信息,无论是中性、不良、好的数据信息均应成为数据采集内容,而此方法显然做得不够,数据采集的全面性有待提高。之前服务器性能不足、存储设备落后、网络带宽窄等客观原因,形成了数据采集与处理上的瓶颈。而今,服务器处理速度、硬盘读写速度、网络速度已突飞猛进,要实现全数据采集应该不是什么难事。如广西有5282 万人,假如每人每天在网上发达自已的意见1000 个字,那么1000 个汉字的硬盘空间就是2KB,广西5282 万人一天占用的硬盘空间合计约100GB,这点数据量对以大数据著称的今天,应该不是难事。
4.舆情事件行政区域管辖范围不固定
区域行政管理机构更多的是关注本行政区域的所有网络舆情,如广西网络舆情监测与预警的管理机构,更关心、更专注于广西行政区域范围内的事情,而不是其他省份的;那么各省的地、市、县行政区域的网络舆情监测与预警的管理机构也更关心自己行政管辖范围的事,同时,信息的质地要求上,不管是负面的,还是正面的,或是中性的,都是有用的、有现实意义的。
三、网络舆情监测与预警系统构建的对策与建议
(一)引入以行政区域作为信息采集与管理操作单元
本研究改变了传统主题构建方式,以行政区域作为信息采集与管理操作单元,以各地市、县名称作为基点来构建独立的网络舆情监测与预警系统,以各地市、县、镇、乡名称为唯一关键字进行数据搜索与采集,实现各地市、县独立管理与运作的网络舆情收集、监测、预警等。同时,对采集的数据按照信息预处理技术、中文分词技术、文本聚分类技术、话题检测算法、话题追究回溯算法、报警设计等进行相应的技术处理,按照行政区域管理范围进行按区域权限进行分类汇总,并加入一些针对网络舆情行政处理办公功能,实现统一谋划、分步和多层次实施,上下一盘棋的工作协调机制,让各行政区域管理员及时了解、把控、引导本行政区域的网络舆情。以行政区域数据库作为数据收集的主关键词是多层次、多批次、无遗漏进行同步或分步采集机制的核心方案,也是行政区域的网络舆情监测与预警系统的工作要点。
(二)实行行政区域分级管理模式
传统的网络舆情监测与预警系统一般采用一个区域就设置一个部门、一个网络舆情监测与预警系统来完成工作,或者一个区域的下上级中使用多个相同或不同的网络舆情监测与预警系统,各系统之间没有任何工作协作或分工,无法进行统一分工协调,上级无法及时了解下级网络舆情监测与预警情况、引导情况,人员配置上也不能根据工作实际进行合理的调配。因此,传统的网络舆情监测与预警系统与当今天的大数据时代是不相适应的,而本研究由于引入行政区域数据作为主关键词,即各地市、县名称作为基点来构建独立的网络舆情监测与预警系统,并进行统一的规划、设计,让各部门通过网络舆情监测与预警系统做到工作有序、分工明确、合作共赢。
(三)实行统一身份认证机制
目前,各级部门为规范工作流程、提高工作效率,已购进或自行开发出众多不同的应用系统,各应用系统在未经整合、认证前是独立无关联的,各个应用系统登录需要不同的账号密码登录,这给用户带来不便,大大影响了工作效率和工作热情。采用统一身份认证来实现单点登录,实现系统间的应用漫游是客观需要。由于本研究引入行政区域数据作为主关键词,以各地市、县名称作为基点来构建独立的网络舆情监测与预警系统,因此必须考虑到父系统与各级地市、县子系统实现统一认证功能,同时也要考虑到子系统与各单位的统一认证系统进行对接,把网络舆情监测与预警系统纳入到原有系统体系当中。当前有三种统一认证机制:基于认证平台的应用漫游、基于共享密钥的协议登录、基于自配置的模拟登录,它们各有特点。(1)基于认证平台的应用漫游:统一身份认证平台存储了用户的所有身份信息和凭证信息,并提供了由不同编程语言编写的认证接口,业务系统在与认证接口进行对接之后,便可以轻松地使用统一身份认证平台完成对用户身份进行合法性认证。同时,不需要自行存储凭证信息和认证信息。(2)基于共享密钥的协议登录:统一身份认证平台与业务系统共同约定用户账号、时间戳、校验码、共享密钥等四个参数,并要求双方系统实现时间同步。业务系统的在统一认证入口输入对应的认证信息,然后通过跳转程序使用HTTP的get或post方法把双方约定好的四个参数据信息提交到业务系统,业务系统的验证程序负责检验当前数据的合法性、有效性,若通过验证则跳转到业务系统,否则提示验证不合法。(3)基于自配置的模拟登录:通过配置程序在认证系统中建立一个认证系统账号与各个业务系统账号的映射表,这映射表的主要内容有:认证系统账号、业务系统ID、业务系统基本角色、业务系统密码。在通过认证系统进行认证时,直接通过认证系统的映射信息,便可以进行用户合法性认证、用户角色获取、业务系统定位,并完成业务系统应用跳转等工作。对上面三种认证机制,在基础数据准备工作、接口认证程序复用、部署难易程度、应用漫游程度、系统适用性等五个方面进行比对,见表1。
在统一认证建设的过程中采用何种机制进行认证集成应根据业务系统及认证系统的实际,做到具体情况具体分析,推荐考虑的方向:基于认证平台的应用漫游方式是最优,基于共享密钥的协议登录机制为其次,基于自配置的模拟登录机制为最后。
(四)理清各子系统之间数据共享机制和办公协调机制
根据广西工作实际,为保证系统架构科学、明晰,并保证系统更好地开发、运用、实施,系统实行两层管理(省、地市两级管理),即系统采用类似行政分级管理架构,系统上下级之间就存在着父子关系,其分别称为父系统和子系统。父系统作为整个系统的管理层和决策层角色,是中央枢纽,它制定了各子系统实施网络舆情信息监控的工作区域及运行方式,指定各子系统的工作责任人,下达工作指示,实时管理和跟踪各子系统工作运行情况;各子系统是网络舆情信息监控具体实施单位,是网络舆情信息监控成功与否的重要环节,它们之间是管理者和被管理者的关系,是上下级关系。父系统能够及时、准确、全面的掌握当前各子系统的实际运行情况,从而保证整个区域的网络舆情信息系统始终处于正常运转状态,并通过必要的引导,保持可控、最佳和高效运行状态。本研究的系统应是由多个子系统组成的复杂、庞大的系统,如何实现子系统间的数据共享、如何制定各系统间数据操作规则将是本系统成功与否的关键。而要解决这一问题首先需了解系统的组成、功能及各子系统间的互联方式。通过规划统一的数据库,不同的子系统除了独享自身的数据库外,还设立一个数据共享库,用于存放各子系统采集回来的跨行政区域的数据,并用对应行政区域编号进行标注,各子系统除了从互联网上采集数据,还应时刻对共享库进行采集和管理,实现实时网络舆情发展跟踪。子系统是一个完整独立的信息处理单元,其除了上述的功能外,还包括了一般网络舆情监测与预警系统的三层系统框架层:信息采集层、数据处理层、信息查询显示,如图1 所示。
(五)完善各子系统功能设计
各子系统是一个功能完整的网络舆情信息监控与监测系统,可根据工作实际设计相应的运行规则和运行机制。由监测系统、汇集系统、分析系统、警报系统、预控子统等五个子系统构成;按模块分,本研究根据自身开发的需要把子系统的后台模块分为:网络舆情信息监控模块、专题监控模块、人员监控模块、主题分类管理模块、分析预警管理模块、关键词设置模块、用户管理模块、系统参数管理模块、统计汇总模块、采集模式管理模块、采集站点管理模块、地点区域管理模块等。
(六)完善各子系统指标体系建立与设置
指标一般由指标名称和指标数值两部分组成,它描述了物质的某个特性的名称及度的数量值;而指标体系(Indication System-IS)则是进行预测或评价研究的前提和基础,它是将抽象的研究对象按照其本质属性和特征的某一方面的标识分解成为具有行为化、可操作化的结构,并对指标体系中每一构成元素(即指标) 赋予相应权重的过程。所用到的指标及指标数值准确性、可用性将是衡量网络舆情监测与引导系统是否成功的唯一标志。如数据采集完整性指标,它就直接反映到采集模块的采集面;数据相关性指标,它直接反映了舆情监测模块跟踪、定位功能和准确性;预警指标体系设定是情警报系统工作的重要一环,其分析结果判断将是警报发出的触发条件,同时,其数值大小将是危机警戒线设定的凭证,可以根据数值范围来设定其严重程度、可控性、影响范围,把预警级别分为轻警级(Ⅳ级,非常态)、中度警级(Ⅲ级,警示)、重警级(Ⅱ级,危险)、特重警级(Ⅰ级,极度危险),同时,采用蓝色、黄色、橙色、红色等不同的颜色来判断预警的不同级别。因此,指标体系建立与设置必须在深入程度、全面性、准确性、可行性、可操作性方面入手,争取实现系统的可用性、可控性、准确性、可靠性。
(七)大力完善制度保障建设
网络舆情信息监控和引导是一项综合性、复杂的系统工程,它不能仅靠一两个计算机系统或者一两套班子人马就得以顺利实现,网络舆情信息监控和引导不仅仅在乎结果,更是一个过程,一个永远在路上的系统工程。如何做到防范未然、因势利导、有的放矢,它将考验政府部门的事前、事中、事后等方面的应变处置能力和应变能力,还直接反映出政府部门的智慧和信用,因此,在做好一系列严密的网上监测、引导的同时加大并完善制度保障建设也尤为重要。
1.制定并完善互联网信息安全的法律、法规,做到有法可依
西方著名的学术著作《报刊的四种理论》认为大众传播媒介总是带有它所属社会和政治阶层的形式和色彩,它是对某些不利于社会运行的舆论进行控制,并使之为自己服务。因此,处于社会主义初级阶段的中国,如何做到保障公民的言论自由,又能维护网上公平正义、风气优良的正常网上秩序,最好的办法是制度建设,做到有法可依。成熟的制度是政治成熟的必然条件,是应对潜在的危机与风险,控制、规范互联网虚假、有害信息,维护网络正常秩序的关键。
2.规定媒体应肩负的社会责任和义务
媒体作为社会的一个团体,不管其性质是政府所有制媒介,还是私有制媒介,它既然提供了一个可供大众认知或发表信息的渠道与空间,其在充分享有法律给予的发布媒介信息自由权利的同时,必须承担相应的法律责任,那就是每种媒介都要对依赖它们而获知信息的公众或团体负有社会职责,这社会职责的大小应该有明确的法律规定。
3.加大媒介素质教育力度,促进传媒素养提高
媒介素养教育,它是为了应对各种媒介对人的各种不同影响进而提出的一种教育方法和教育思想。它的核心是使人们具备正确理解、使用、利用媒介信息,并对其意义有着自已独立的判断和价值的认知能力。
欧洲、北美洲、大洋洲、拉丁美洲、亚洲部分地区在20 世纪下半叶,已把媒介素养教育作为一种新的教学科目引入课堂,因此,我国适时提出并加强媒介素质教育,以提高人们传媒素养是很有必要的。
4.加大人力、财力、物力支持,加强组织体系建设
按省、市等行政级别建立相应的纵向网络舆情信息监控与引导的团队,同时扩大团队的组成,实行纵向部门有序对接,规定相关部门的职责人,积极调动各级部门的主动性,提高基层的参与度,使网络舆情信息监控不留死角,并做到有针对性的引导。
同时,建立各级相关职能部门参与的横向对接机制,扩大横向部门的参与力度,并确定各部门的责任人,实行联动机制。建立从政府、媒介机构、公众联动对接机制,完成立体防控体系。形成以媒介机构、政府为监控主体,公众作为网络舆情的受众。建立从网上与网下的联动互助机制。在预警工作中既要关注网上网络舆情信息的发展变化,又要关注网下网络舆情所造成的影响及动向,提高网上、网下的引导能力。
四、结语
本文通过以广西突发事件的网络舆情监测与引导研究为例,提出了为行政区域服务的网络舆情监测与预警系统构建的必要性和迫切需求,以简洁而直观的方式描述以行政区域为信息采集与管理操作单元的开创性思维构建舆情监测与预警系统的新思路,提出一系列具有现实操作性建议,有助于从总体上把握网络舆情监测与预警系统在突发公共事件所具有的作用和实施方法,为政府应对突发公共事件实施网络舆情监测与引导提供参考。
摘要:文章以构建行政区域(广西)服务网络舆情监测与预警系统为落脚点,深入研究当前网络舆情监测与预警系统的工作模式和工作流程,针对其数据采集和数据处理过程无法科学地做到针对性、实效性、全面性的欠缺,认为引入以行政区域作为信息采集与管理操作单元,可以克服该系统在分层、同步、异步处理机制上的不足,并提出构建科学、实用的网络舆情监测与预警系统的对策与建议。
【银行业舆情监测系统】推荐阅读:
银行业管理信息系统06-26
银行系统应急演练总结10-03
银行系统白皮书11-10
uml银行管理系统06-01
人民银行个人征信系统07-26
银行储蓄系统分析报告10-06
银行电子商务系统分析10-21
银行crm系统应用情况11-07
银行系统需求分析报告02-25
银行管理系统毕业论文02-12