范文写作网 > 管理毕业论文 > > 数据挖掘在政府信息系统设计中的应用研究
管理毕业论文

数据挖掘在政府信息系统设计中的应用研究

摘要:【摘要】随着电子政务的蓬勃发展,政府部分内部及政府部分之间产生了大量政务信息。如何正确、有效地从这些数据中提取有价值的信息就成为目前电子政务的一个重要题目。本文重点阐明了采用数据挖掘技术来监控与治理日益复杂的交换平台。对研究数据挖掘在电子政
关键词:数据挖掘,政府,信息系统,设计,中的,应用,研究,摘要,随着

古寨沟,东北农村土坑上乱欲,汽车半轴套管

【摘要】随着电子政务的蓬勃发展,政府部分内部及政府部分之间产生了大量政务信息。如何正确、有效地从这些数据中提取有价值的信息就成为目前电子政务的一个重要题目。本文重点阐明了采用数据挖掘技术来监控与治理日益复杂的交换平台。对研究数据挖掘在电子政务中的实际应用具有定的鉴戒作用和推广意义。【关键词】数据挖掘 数据仓库 电子政务1、引言随着网络技术和数据库技术的飞速发展,政府的信息化进程正在逐渐加快。政府信息化,就是指政府行政治理方式、内容和手段的数字化、网络化和智能化。当今,人们对政府和职能部分高效运转的要求越来越高,政府重塑理论和新公共治理理论也在逐渐发展。电子政务自产生后就得到了快速发展并且迅速成为支持政府从传统的治理方式向新型治理体系转变的重要技术保证。电子政务的核心是利用信息技术优化进步行政效率,实现行政和日常事务的优化,建立政府、社会和公众之间的有机互动。经过最近几年电子政务基础资源的大规模建设,海量政务信息资源挖掘和电子政务知识治理等深层次应用正逐步进进电子政务舞台,对电子政务实施数据挖掘将成为政府信息化的一个新的研究方向。2、数据挖掘理论概述数据挖掘( Data Mining)又称数据库中的知识发现,是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜伏有用的信息和知识的过程。对信息和知识的需求来自各行各业,从贸易治理、生产控制、市场分析到工程设计、科学探索等,数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动中扮演着越来越重要的角色。2.1、数据挖掘过程数据挖掘的工作过程从技术上可分为:数据的回集、数据的存储和治理、数据的展现等关键技术。(1)数据的回集:数据的回集是数据进进仓库的进口。由于数据仓库是一个独立的数据环境,它需要通过回集过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导进数据仓库。数据回集在技术上主要涉及互连、复制、增量、转换、调度和监控等方面的处理。在数据回集方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于治理和维护。(2)数据的存储和治理:数据仓库的组织治理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库治理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和治理中需要解决的是如何治理大量的数据、如何并行处理大量的数据、如何优化查询等。(3)数据的展现:在数据展现方面主要的方式有:查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行均匀值、最大值、最小值、期看、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。从数据分析的角度,数据挖掘实现的功能可以分为:描述式数据挖掘和猜测式数据挖掘。描述式数据挖掘以简捷概要的方式描述数据,猜测式数据挖掘则通过分析建立模型并试图猜测新数据集的行为。2.2、数据预处理数据预处理是数据挖掘过程中第一个重要处理步骤,涉及数据清洗、数据集成、数据转换和数据消减等主要处理方法。数据清洗,主要用于填补数据记录中(各属性)的遗漏数据,识别异常数据,以及纠正数据中的不一致题目。数据集成,主要用于将来自多个数据源的数据合并到一起并形成完整的数据集合。数据转换,主要用于将数据转换成适合数据挖掘的形式。如:规格化数据处理。数据消减,主要方法包括:数据立方合计、维度消减、数据压缩、数据块消减和离散化。这些方法主要用于在保证原来数据信息内涵减少最小化的同时对原来数据规模进行消减,并提出一个简洁的数据表示。2.3、数据挖掘中的关联规则数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。随着收集和存储在数据库中的数据规模越来越大,人们对从这些数据中挖掘相应的关联知识越来越有爱好。关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequentltemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。关联规则挖掘的相关算法主要有:Apriori算法、基于划分的算法、FP-树频集算法。近年来大量研究从不同的角度对关联规则做了扩展,将更多的因素集成到关联规则挖掘方法之中,以此丰富关联规则的应用领域,拓宽支持治理决策的范围。2.4、数据挖掘中的聚类分析聚类( Clustering)是一个将数据集划分为若干组( class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。相似或不相似的描述是基于数据描述属性的取值来确定的。聚类分析所涉及的领域包括:数据挖掘、统计学、机器学习、空间数据库技术、生物学和市场学等。聚类分析是数据挖掘中的一个很活跃的研究领域,已提出的聚类算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。由于各应用数据库所包含的数据量越来越大,聚类分析已成为数据挖掘研究中一个非常活跃的研究课题,以下就是对数据挖掘中的聚类分析的一些典型要求:(l)可扩展性。很多聚类算法在小数据集(少于200个数据对象)时可以工作很好;但一个大数据库可能会包含数以百万的对象。利用采样方法进行聚类分析可能得到一个有偏差的结果,这时就需要可扩展的聚类分析算法。(2)处理不同类型属性的能力。很多算法是针对基于区间的数值属性而设计的。但是有些应用需要对其它类型数据,如:二值类型、符号类型、顺序类型,或这些数据类型的组合。 (3)发现任意外形的聚类。很多聚类算法是根据欧氏间隔和Manhattan间隔来进行聚类的。基于这类间隔的聚类方法一般只能发现具有类似大小和密度的圆形或球状聚类。而实际上一个聚类是可以具有任意外形的,因此设计出能够发现任意外形类集的聚类算法是非常重要的。(4)处理噪声数据的能力。大多数现实世界的数据库均包含异常数据、不明数据、数据丢失和噪声数据,有些聚类算法对这样的数据非常敏感并会导致获得质量较差的数据。(5)高维题目。一个数据库或一个数据仓库或许包含若干维或属性。很多聚类算法在处理低维数据时(仅包含二到三个维)时表现很好。人的视觉也可以帮助判定多至三维的数据聚类分析质量。然而设计对高维空间中的数据对象,特别是对高维空间稀疏和怪异分布的数据对象,能进行较好聚类分析的聚类算法已成为聚类研究中的一项挑战。(6)基于约束的聚类。现实世界中的应用可能需要在各种约束之下进行聚类分析。假设需要在一个城市中确定一些新加油站的位置,就需要考虑诸如:城市中的河流、高速路,以及每个区域的客户需求等约束情况下居民住地的聚类分析。设计能够发现满足特定约束条件且具有较好聚类质量的聚类算法也是一个重要聚类研究任务。(7)可解释性和可用性。用户往往希看聚类结果是可理解的、可解释的,以及可用的。这就需要聚类分析要与特定的解释和应用联系在一起。因此研究一个应用的目标是如何影响聚类方法选择也是非常重要的。3.数据挖掘与电子政务现状分析经过多年的实践,我国电子政务建设和应用已初见成效。人口基础信息库、法人单位基础信息库、自然资源和空间地理基础数据库、宏观经济数据库的建立产生了海量的空间数据和非空间数据。这些数据中隐躲了丰富的知识和规则,但目前的很多系统只是实现数据的输进、查询、统计等功能,难以发现数据中存在的关联、关系和规则,无法从大量的数据中提取有用信息以猜测发展趋势。从海量的数据中提取出这些规则,将有看为电子政务空间辅助决策系统建立提供支持。在电子政务中数据挖掘的常用方法主要有决策树方法、统计的方法、回纳法、神经网络方法、遗传算法、粗糙集方法、人工智能、模糊集方法等。3.1现有信息系统常见缺陷当前政府机关的各种应用信息系统固然已经基本上建立起来,但是各种信息系统在建立之前,缺乏数据信息和系统的同一标准接口的规划,使得整个信息系统有如下缺陷:(1)数据格式多种多样,一致性较差,存在数据冗余;(2)数据来源多,数据存放分散,缺乏同一治理和联系;(3)数据量虽大,但对数据资源的开发利用不充分。3.2电子政务对数据挖掘技术的要求(1)降低本钱、减少财政开支。数据挖掘技术的应用可以打破各级政府之间文件传递的繁琐性,用快捷的电子方式在政府上下级之间进行信息传递。不仅降低了政府办公用品及相关开销,而且无形中节约了大量的时间、减少了大量的额外开支,大大进步了工作效率。(2)提供实时、有效的信息。政府部分若要充分发挥其职能作用,就必须进行及时、有效的监控和治理。数据挖掘技术可以帮助增强公众与政府间沟通、通讯的时效性,保证双方都可以及时、正确地把握到有效信息,建立起一个可以有效收集、监理、分析所获数据的系统。(3)提供形势分析与决策支持。电子政务中的数据挖掘技术,可以对政务系统中的海量数据进行开采、挖掘和分析,从中识别、抽取隐含信息,并利用这些信息为政府部分重大决策、法规的制定提供依据。(4)提供功能强大的搜索引擎。数据挖掘技术是目前网络信息检索发展的一个关键。如通过对网页内容的挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;同时,通过对用户所使用的提问式历史记录的分析,可以有效进行提问扩展,进步检索效果;另外,运用数据挖掘技术还可以改进关键词加权算法、进步网络信息的标引正确度,从而改善检索效果,大大进步电子政务处理的效果和效率。4、基于数据挖掘的实际系统设计2007年,我在杭州市主持建设政务信息资源共享与业务协同项目,建立了市级政府各部分之间的目录体系与交换体系,利用目录和交换体系的基础支撑作用,实现经济调节、市场监管、社会治理、公共服务四大政府职能领域的多项业务协同应用。现有交换体系是基于Tibco的交换中间件产品构建的交换平台,任何一项数据交换需求都需要独立进行交换设计和流程部署。在交换部分不断增加、交换需求也日益增多的情况下,交换平台的监控与治理就显得日益复杂,重新优化设计交换模式就显得尤为需要。4.1目录和交换体系设计总体目标基于人口与法人单位数据库,具备初步的数据挖掘、分析和预警能力,支持初步的辅助决策要求。基于数据挖掘的需求建立主题库,以利于进一步工作。系统设计的主要任务是建立三个主要的功能模块:个人信息数据分析功能模块、法人信息数据分析功能模块和个人与法人信息数据分析功能模块。4.2目录和交换体系架构以电子政务外网为基础,构建包含 交换中心和资源目录中心以及部分交换 节点在内的政务信息资源综合交换平 台。各业务部分通过交换体系的通用桥 接系统将本部分的业务信息发布到共享 信息库中,并根据协同应用规范编制并 部署有关服务应用。通过目录体系的编 目软件将包括服务的信息进行编目操纵 提交到中心审核并发布。使用部分通过目录分类查找信息资源并根占有关规童制度进行信息资源的索取(人一机界面)、信息资源的交换(机一机界面)和信息服务的调用(机一机界面)。目录中心与交换中心提供共享目录服务与交换服务和四大基础信息库,为业务协同应用提供支撑服务。现有的前置机系统存在比较普遍的