首页 资讯 业界 查看内容

多通道多任务的网络舆情监测与分析系统

2016-7-13 17:01 |原作者: 鱼书兰 1687 0

摘要: 多通道多任务的网络舆情监测与分析系统 摘要:互联网已经发展成为当今世界上最大的信息库,中国网民人数超过2.98亿,规模全球第一。互联网是网民最新最快获取与发布信息的渠道,越来越多的重大事件最初都是通过互联 ...

多通道多任务的网络舆情监测与分析系统

摘要:互联网已经发展成为当今世界上最大的信息库,中国网民人数超过2.98亿,规模全球第一。互联网是网民最新最快获取与发布信息的渠道,越来越多的重大事件最初都是通过互联网批露或诱发的,其动员力、煽动力和影响力不可小视,对社会公共安全形成重大威胁。

网络舆情研究是网络信息内容安全的重要研究内容,网络舆情突发事件的监测与分析具有重要的理论意义与实际应用价值。本系统是基于现有的舆情挖掘和分析理论,研究、实现的一个实际的舆情监控和分析系统,主要包括支持多通道、多任务的网络舆情信息获取、原始信

息的提取和索引的建立、舆情敏感词监控与敏感信息扩散跟踪三个功能。与传统的舆情分析系统相比较,本系统的创新点如下:从门户网站的新闻、个人博客和著名论坛等多个通道获取舆情信息;采用多任务技术提高网络舆情突发事件信息获取速度;采用目标可定制技术规

避海量信息处理的压力;舆情敏感信息扩散跟踪可以及时发现突发事件的爆发源头;基于图表的舆情分析能更好的为用户提供舆情分析功能;系统各个子系统采用数据耦合以及并行的系统架构能加快系统处理速度。

一:相关技术探究

网络舆情分析需要研究网络信息的内容获取、组织、分析与挖掘技术。本节仅对舆情发掘技术的研究现状进行描述。

(1)国内舆情研究

目前国内互联网舆情信息的采集与挖掘受到了越来越广泛的关注。中科院计算所提出COFFER系统(Consensus Observation and Forecasting For intERnet)对互联网上舆论信息进行有效汇集、整理与分析,对网络舆论信息、舆论趋势走向和社会动态进行实时监测;北大方正技术研究院(2005)设计开发了方正智思舆情预警辅助决策支持系统:该系统由舆情规划、舆情收集、分析处理、舆情预警四个环节组成;2009 1 10 日国内首个网络舆情安全研究机构北京交通大学网络舆情安全研究中心正式挂牌成立。

(2)国际舆情研究

国际舆情分析起步较早,同样在近年来受到更多的重视,主要方式有两种:

说明: 40.png

Ø  文本据:自分析方式是通搜集报纸志、道等文本信息,行分析汇总后形成情分果。如英科波拉公司推出了  感情色彩情分析件,该软件可以在 1 内读 10 篇新闻资文章的政治立

Ø  Web据自分析方式:自搜集和分析网络上的Web据,形成情分析告,如加州大伯克利分校社学计实验室的SDA(http://sda.berkeley.edu/)目,目前已推出3.5版本,提供实时Web据分析功能。

.容分析

容是基于有的掘和分析理究、实现个实际控和分析系。系子系,具体使用的技分布1所示。

如上所示,本系的信息取子系使用到的技有多通道、多任且提供可供详细配置取任的接口。后台理子系采用HtmlParser提取网页和博客正文、采用DOM以及模板的技术结构化提取BBS据;在索引建方面,使用了Lucene术实现了增量式索引;在分方面,使用PythonSVM参数进化以提高的准确率。在分析和统计舆情信息方面,情分析方法,索出每敏感的出现时间、通道、主机和次,存入为详细的分析和话题追踪做准;在UI子系中,使用示的方法情分析和统计,使用相度和出现时间合的方法实现话题的追踪。

有技以及成果,本系的主要的究点集中在多通道、多任,基于DOM和模板BBS结构信息提取,分据的取五方面,下面行一一明。

(1)多通道技网络媒体多的今天,一的网页抓取不能准确、全面的情分析,所以本系的信息取子系统实现了多通道技,同时抓站、博客和论坛信息,使用不同技术进理。

(2)多任传统网页抓取的局限,我可以在容忍一定的网页缺失以及容忍一定的网页复抓取的前提下,不同用模的取任切分若干模的任子集,并将子集交若干爬虫取,以加快爬虫系的整体取速率。

(3)基于DOM和模板的BBS结构化信息提取:由于不同的论坛站点在结构上有大的不同,所以不同的论坛类别读取不同的配置文件来达到系的通用性。设计方案如下:系统读论坛的主题页,按照html标记解析DOM,然后根据配置文件提取每标题、作者、时间、点量等相对应帖子容的URL等信息,具体信息类别个数可能根据BBS站点的不同而改

(4)使用SVM基本算法行分的准确率很低,所以使用Python参数进化,可以提高判的准确率,同时为了加快行速度。

 (5)据的取和源追踪:情分析的指标难以确定,同时现有的自然理的算法时间复杂度很高,所以我提出使用人工和合的取方案,在敏感词词库中添加基本的敏感情分析,同可以通人工管理敏感,定制特定的信息,增加情分析的准确度。另外通过语料相度以及现时间生成散点实现敏感信息的源追踪功能。

三:实验及结果分析

由于系采用松耦合的框架,需要的各块进测试才能最反映出系的性能。系统实验设计涉及到分的重实验、下速度实验论坛内容提取速度和准确性实验、分类实验据分析模块实验理效果实验。由于篇幅有限,仅对并理效果实验进行介

信息取子系原始料,后台分析子系统处理原始料,为测子系理效果,首先定 R 效率,理的网页数/已下网页数R 越大,子系行控制做的越好。在控制中,信息取子系首先启动,后台理子系时启动,根据消和生的速率可以置消者定期启动时间 IT(interval time)IT 在保效率的同应该越好,因为频繁的降低系的下速度。

使用校园网进实验,把 IT 5101520 钟时,得 2

说明: 41.png

可以看出, IT 5 钟时的消效率 R 高,但是繁的度降低了系的下速度。 IT 20 钟时,消效率波 声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系 [邮箱地址] 删除


路过

雷人

握手

鲜花

鸡蛋

最新评论

返回顶部