数据挖掘功能及各自方法总结

数据挖掘功能的特点及主要挖掘方法

一、数据挖掘功能的特点及主要挖掘方法

数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下几类功能:

(1)概念描述

概念描述又称数据总结,其目的是对数据进行浓缩,给出它的综合描述,或者将它与其它对象进行对比。通过对数据的总结,可以实现对数据的总体把握。最简单的概念描述就是利用统计学中的传统方法,计算出数据库中各个数据项的总和、均值、方差等,或者利用OLAP(0n Line Processing,联机分析处理技术)实现数据的多维查询和计算,或者绘制直方图、折线图等统计图形。

(2)关联分析

关联分析就是从大量数据中发现项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定。

关联分析的主要方法有Apriori算法、AprioriTid算法、FP-growth算法等。

(3)分类和预测

分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测数据未来的趋势。就是研究已分类资料的特征,分析对象属性,据此建立一个分类函数或分类模型,然后运用该模型计算总结出的数据特征,将其他未经分类或新的数据分派到不同的组中。计算结果通常简化为几个离散值,常用来对资料作筛选工作。分类和预测的应用十分广泛, 例如,可以建立一个分类模型,对银行的贷款客户进行分类,以降低贷款的风险;也可以通过建立分类模型,对工厂的机器运转情况进行分类,用来预测机器故障的发生。

分类的主要方法有ID3算法、C4.5算法、SLIQ算法、SPRINT算法、RainForest算法、Bayes分类算法、CBA(Classification Based on Association)算法、MIND(Mining in Database)算法、神经网络方法、粗糙集理论方法、遗传算法等。

(4)聚类分析

当要分析的数据缺乏描述信息,或是无法组成任何分类模式时就采用聚类的方法,将异质母体区隔为较具同构性的群(Cluster),即将组之间的差异识别出来,并对个别组内的相似样本进行挑选,实现同组数据相近,不同组数据相异。分类功能和聚类功能是不同的,分类是根据预先定好的一些特征值对对象分组,组或类是预先确定好的,而聚类是事先不知道的条件下根据对象的一些相似特征分组。聚类也便于将观察到的内容组织成分层结构,把类似的事件组织在一起。

聚类分析的主要方法有划分方法、层次方法、基于网格的方法、统计学和神经网络方面的方法。

(5)孤立点分析

数据库中可能包含一些数据对象,它们与数据的一般行为或模式不一致。这些数据对象就是孤立点。许多数据挖掘算法试图使孤立点的影响最小化,或者排除它们。但在一些应用中孤立点本身可能是非常重要的信息。例如在欺诈探测中,孤立点可能预示着欺诈行为。

(6)时间序列分析

在时间序列分析中,数据的属性值是随着时间不断变化的。这些数据一般在相等的时间间隔内取得,但是也可以在不相等的时间间隔内取得。通过时间序列图可以将时间序列数据可视化。时间序列分析目前有三个基本功能:一是模式挖掘,即通过分析时间序列的历史形态来研究事务的行为特征;二是趋势分析,即利用历史时间序列预测数据的未来数值;三是相似性搜索,即使用距离度量来确定不同时间序列的相似性。

二、数据挖掘的综合应用

数据挖掘在网络入侵检测系统中的应用:

利用数据挖掘技术对审计数据加以分析,总结出一些正常模式,用来进行异常检测,将有助于提高入侵检测系统的检测准确性和完备性。在此实例中用到了聚类分析方法在非监督式异常检测中的应用,使用K均值算法通过一系列的实验证实了这种算法可以在大量的混合数据中提取出正常数据,并能够利用得到聚类中心进行异常检测;此实例中还用到了关联规则挖掘与频繁情节挖掘技术。

单纯采用布尔型的关联规则挖掘算法〔Apriori)可以挖掘出单条连接记录各

属性之间的相关性,得出的规则对于高密度的简单攻击具有较好的检测结果,但对于由多个行为构成的高级攻击,则检测效果不够理想。频繁情节算法挖掘的是连接记录之间的序列关系,相对于布尔型关联规则挖掘算法而言检测效果较好。

由此可见每种数据挖掘的方法都有其侧重点,对于现实的数据挖掘处理,不大可能使用单一的数据挖掘方法就能得到满意的结果,而要综合应用多种方法取各种方法之长补其之短,对数据进行挖掘才能得到满意的结果。

 

第二篇:数据挖掘要点总结

名词解释:

商务智能:商务智能是数据仓库、联机分析处理(OLAP)和数据挖掘等相关技术走向商业应用后形成的一种应用技术。

数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

OLAP:在线分析处理:是一种广泛应用的上午智能使用技术,可以根据分析人员的要求,迅速灵活地对大量数据进行复杂的查询处理,并以直观的容易理解的形式将查询结果提供给各种决策人员,使他们能够迅速准确地掌握企业的运营情况,了解市场的需求。特点:在线性,多维分析。

多维分析:指对多为数据集中的数据用切片、切块和旋转等方式分析数据,使用户能够多角度多侧面地去观察数据仓库中的数据。

最近邻数据挖掘技术:相互之间“接近”的对象具有相似的预测值。如果你知道了其中一个对象的预测值后,就可以用它来预测其最近的邻居对象。 简答:

OLAP与OLTP区别:OLAP是联机分析处理OLTP是联机事务处理。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观、易懂的查询结果。OLTP是传统的关系型数据库的主要应用模式,主要面对基本的、日常的事务处理;比如数据库记录的增、删、改、查。

DW、OLAP、DM的区别:OLAP、数据挖掘(DM)的对比(差异性:面向对象和问题不同。):OLAP主要由决策者查询分析、决策支持分析报告等一些预定的决策支持报告组成,这些OLAP主要面向一线直接从事具体业务,但又需要进行临时性决策的人员,这些人员需要使用一些定制的分析报告,以支持其日常决策活动。数据挖掘是一种从海量数据中寻找可以了解商务活动规律的信息处理工具,利用数据挖掘可以从大量的、不完全的、有噪声的商务数据中,提取隐含在其中的、人民所不知道的、但有时潜在有用的信息和知识。

数据挖掘过程:确定挖掘对象、准备数据、建立模型、挖掘数据、结果分析、知识应用。 商务智能的体系结构:数据仓库,OLAP、数据挖掘,商务分析。

事实表模型设计原则:通过调查确定所有可能的事实,派生事实;按功能排序,删除重复事实;基于不同准则但是有相同性质的派生事实;确认计算派生事实的基本事实包含在模型中; 事实表尽可能小!

元数据在数据仓库中的作用:1.数据仓库的元数据重要性: 为数据仓库服务与DSS分析员及高层决策人员服务提供便利;解决操作型环境和数据仓库的复杂关系 ;数据仓库中数据的管理 2.元数据在数据仓库开发期间的使用:确认数据质量 、同步化和刷新 、映射

3.元数据在数据源抽取中的作用:资源领域的确定 、跟踪历史数据结构变化的过程 、属性到属性的映射 、属性转换 4.元数据在数据求精与重构工程上的作用:数据的分割 、概括与聚集 、预算与推导 、转换与再映像

三种概念模型的范围特征概念:1、规范的数据模型:将数据结构分解成较小且合适的组成过程,规范化主要强调实现存储的灵活性和高效性。第三范式:所有的非主属性都完全依赖于关键列;所有的主要属性都完全依赖于不属于他们的键;没有非主属性完全依赖于任一非主属性集,即不应出现传递依赖关系。2、星型模型:核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。 事实星座(Fact constellations): 复杂应用可能需要多个事实表共享维表, 这种模式可以看作星型模式的汇集,因此称为星系模式(galaxy schema),或者事实星座(fact constellation) 现代数据挖掘的相关方法:1规则型现代挖掘技术:布尔关联规则、单维规则

buys(x,“computer”)=>buys(x,“finacial_management_software”)

量化关联规则、多维关联

age(“30..40”)∧income(“420xx..50000”)=>buys(x,“high_resolution_TV”) 多层关联规则

单层关联规则

age(x,“30..40”)=>buys(x,“IBM computer”)

age(x,“30..40”)=>buys(x,“computer”)

2神经网络型现代挖掘技术:神经网络的工作过程主要分两个阶段:学习阶段和工作阶段。 学习方式则有三种:有教师(监督)学习、无教师(监督)学习和强化学习。

3遗传算法型现代挖掘技术:1.遗传算法的基本原理

达尔文的“适者生存”理论、继承的信息由基因携带 、多个基因组成了染色体 、基因座、等位基因 、基因型和表现型

染色体对应的是一系列符号序列,通常用0、1的位串表示

进行生物的遗传进化。在这一过程中包括三种演化操作:在父代基因群中的双亲选择操作、两个父代双亲产生子代基因的交叉操作和在子代基因群体中的变异操作。

两种数据转换:从表现型到基因型的转换,另一种是从基因型到表现型的转换

遗传算法实质上是一种繁衍、检测和评价的迭代算法

最大优点是问题的最优解与初始条件无关,而且搜索最优解的能力极强

4决策树型现代挖掘技术:ID3,该算法建立在推理系统和概念学习系统的基础之上,基本步骤是。(1)创建一个节点。如果样本都在同一类,则算法停止,把该节点改成树叶节点,并用该类标记。(2)否则,选择一个能够最好的将训练集分类的属性,该属性作为该节点的测试属性。(3)对测试属性中的每一个值,创建相应的一个分支,并据此划分样本。 (4)使用同样的过程自顶向下的递归,直到满足下面的三个条件中的一个时,就停止递归。 (a)给定节点的所有样本都属于同一类。(b)没有剩余的属性可以用来进一步划分。(c)继续划分得到的改进不明显。

聚类分析原理:在进行聚类分析时,必须用到n维空间。该空间用来定义聚类中必须解决的计量距离问题。聚类方法主要有:分层聚类、划分聚类、网格聚类、模型聚类。

spss中聚类分析的操作步骤:打开数据文件后Analyze--classify---K-means cluster 命令,选择需要聚类的变量到Variables,选择一个标记变量到label case by 中,在number of Cludter小框中指定聚类数。单击ok即可。

相关推荐