范文写作网 > 计算机网络毕业论文 > > 基于Hadoop云计算模式网络舆情监控的探索
计算机网络毕业论文

基于Hadoop云计算模式网络舆情监控的探索

摘要:摘要: 社交网站、微博、在线社区的社会网络的快熟发展,一个新媒体的大数据时代在诞生,每个网民都能创造自己的内容,大量网络数据的产生,给网络舆情监控带来了严峻的挑战,本文根据云计算中的Hadoop大数据处理模式研究出能够大规模采集数据进行挖掘、分析
关键词:基于,Hadoop,云计算,模式,网络,舆情,监控,探索,摘

小白鼠繁殖,小儿难养 下载,紫仙大魔传

  摘要:社交网站、微博、在线社区的社会网络的快熟发展,一个新媒体的大数据时代在诞生,每个网民都能创造自己的内容,大量网络数据的产生,给网络舆情监控带来了严峻的挑战,本文根据云计算中的Hadoop大数据处理模式研究出能够大规模采集数据进行挖掘、分析模式,实现对网络舆情热点话题的社会网络分析,并且将分析结果可视化,为执政党发现敏感话题,掌握网络舆情热点,把握舆情趋势提供科学化的技术支持。

  关键词:网络舆情;Hadoop;舆情监控;大数据

  一、大数据时代对网络舆情监控的影响

  大数据最广泛的定义是:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。但随着信息技术的进步,工程师们采用了分布式架构,进行分布式数据挖掘, 依托云计算的分布式处理、分布式数据库和云储存、虚拟化技术等, 实现了对海量数据的处理。“世界的本质是数据,大数据将开启一次重大的时代转型”[1],数据使社会舆情治理形态和监测方式发生重大改变,开启了社会舆情治理的新时代拥有了对社会海量数据的占有,控制,分析,处理的主导权,对社会舆情治理和预测有重要的意义。

  二、我国目前的网络舆情监控技术分类

  网络舆情对社会有着很深远的影响,政府为了提高舆论监控的能力,要做到能及时的向公众提供权威全面和真实的信息,目前我国的主要网络舆情监控技术分为以下几种

  2.1网络舆情采集与提取技术

  网络舆情主要数据来源于,征服新闻网站,新闻媒体网站,大型商业门户网站,代表性地方网络,论坛BBS,博客和个人空间等渠道形成和传播,这些数据信息的主要来源于动态网页和局域网,使得舆情信息抽取很有难度。

  (1)网络采集爬虫技术

  又称做Robots(机器人)、Spiders(蜘蛛)、Wanders(漫游者),是一种驻留于主机上的程序软件。网络爬虫通过网络链接的拓扑结构自动漫游于所能遍历到的所有网站[2]。在Web上按某种策略进行远程数据(如HTML文档、图像、文本等多种资源)搜索,并建立本地索引,产生一个本地数据库,以便能根据用户的查询快速搜索到所需结果并反馈给用户。

  (2)网络垂直搜索技术

  主要是自动对网络数据进行监控和采集专业领域相关的 Web 网络数据,垂直网络搜索能专注于某一主题和领域,对网页信息进行预测和数据的提取,保存和话题相关的网页信息内容。

  (3)需求配置采集技术

  根据实际需要,可对数据采集系统设计灵活配置的 Web Robot 的数据搜索策略,并应用面向舆情需求对象的方法,对Robot系统设计用户服务接口层、应用程序接口层和核心层来实现对数据的获取。

  2.2 网络舆情的分析处理技术

  (1)网络舆情话题发现和追踪技术

  热点话题发现与追踪技术将internet网上大量的信息进行检查与归类,检测出某一段时间用户特别感兴趣的话题,并且对话题能够进行持续的追踪。[3]热点话题可以给政府的舆情管理带来新的控制手段,并且可以用可视化的方式呈现给执政者,这个技术突破了原来人工的筛选话题,不仅提高了可信度而且大大降低了政府治理的反应时间。主要的工作原理是在系统的预制模块里,分词系统把整个文档进行整理后形成特征项,然后使用聚类算法SHDC进行话题分类,最后通过整理的话题进行追踪观察。

  (2)网民观点倾向向分析技术

  这种方法通过设计问卷、抽样调查、统计分析等一整套科学程序,能够客观地推论社情民意。这种方法已经开始广泛的应用,比如一些热点新闻的网页下方有评论的功能,近几年来在召开大会的时候也会对网名关注的热点问题在网络上例如微博、各大门户网站进行调查。

  (3)情威胁估计技术

  在国内,中科天玑公司的“天玑舆情监测系统”具有很强的舆情信息分析能力,但是舆情信息的采集能力比较弱[3]思公司(TRS)的网络舆情监测系统,具有极好的舆情信息整体检索能力,但是舆情信息的内容分析能力不足[4],中科点击的“军犬舆情监控系统”具有最好的数据挖掘和收集能力,无需规则就能自动采集多种文本格式的舆情信息,但是舆情信息的内容分析功能不突出[5],王铁套,基于BP神经网络的网络舆情威胁估计技术,BP 神经网络具有自适应、自学习能力,能够处理不完整的数据,并找到输入与输出之间的,络舆情威胁估计是一个威胁度的界定过程,通过定性到定量再到定性的结合分析,将网络舆情威胁度分为四个等级:蓝色预警(级)、黄色预警(级)、橙色预警(级)和红色预警(级)。[6]

  三、大数据处理hadoop云计算模式的构建

  Hadoop来源于google公司,是处理大数据的技术,而目前该技术大多用于企业的管理,而应用于突发事件的网络舆情监控的却十分少,网络舆情监控的范围是广域网(Wide Aera Network, WAN) 。广域网由众多局域网组成, 横向来看有多种主要的局域网, 例如各大型企业局域网、各科研机构局域网、各级政府政务网、各学校校园网及各城区电信城域网等; 而从纵向来看, 很多局域网在自身体系内拥有相近的技术架构,例如各级政府政务网、各学校校园网及各城区电信、城域网。各局域网横向纵向结合, 构成了广域网, 云计算hadoop监测因此将重点放在各局域网的舆情监测数据收集和监测结果的整合。

  Hadoop由开源社区Apache负责,并且由Yahoo公司支持该项目。Hadoop采用Java语言开发,其中的HDFS、MapReduce、HBase分别是来自Google云计算中最核心技术的GFS、MapReduce、BigTable的开源实现。而Hadoop的云计算网络舆情监控模式构建就是通过Flume Master对各个局域网的数据收集分析再整合成Hadoop分布式文件系统HDFS,再通过MapReduce并行处理框架,采集到的Web数据经预处理后存储到数据库,为舆情分析提供高质量的数据源。

  Flume日志收集,Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据时[7],,对数据进行简单处理,并写到各种数据接受方能力。需要在被监控的机器上安装Flume,agent的作用是将数据源的数据发送给collector。这里的agent代表的是各个局域网。