1.【p26 1.3】
假设你是BigUniversity的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。该数据库包括如下信息:每个学生的姓名、地址和状态(例如本科生或研究生)所修课程以及他们的GPA(平均积分点)。描述你要选取的结构。该结构的每个成分的作用是什么。 答:该数据挖掘结构应该包括以下几个主要成分:
(1)一个数据库、数据仓库或其它信息库,它由一系列包含学生和课程信息的数据库、数据仓库、电子表格、或其它信息库组成。
(2)一个数据库或数据仓库服务器,它根据用户的数据挖掘请求获取相关的数据。
(3)一个知识库,它包含领域知识,用于指导搜索或评估结果模式的兴趣度。例如,知识库可能包含概念层次结构和元数据(例如,描述来自多个异构数据源的数据)。
(4)一个数据挖掘引擎,它由一系列负责分类、关联、聚类分析、演变和偏差分析的功能模块组成。
(5)一个模式评估模块,它与数据挖掘模块串联工作,采用兴趣度的方法,将搜索重心投注在兴趣模式上。
(6)一个图形用户界面,它为用户提供对数据挖掘系统的交互式途径。
2.【p63 2.4】
中列数是最大值和最小值的平均数。
五数概括就是中位数、四分位数Q1和Q3、最小值和最大值
箱线图(盒图)在p35
分位数图是一种观察单变量数据分布的简单有效方法,他显示给定属性的所有数据(允许用户评估总的情况和不寻常的出现)。其次它绘出了分位数信息
3.【p63 2.5】
问:以计数、标准差和中位数为例说明分布的或代数的度量有利于有效的增量计算,而整体度量不行。
答:计数:当前的计数count可以作为一个值来保存,当有x个新值加进来时,可以很容易地更新count值为(count+x)。这就是分布式度量,可以很容易地进行增量计算。
标准差:如果我们之前存储了已有数据平方的和sum和它们的计数count,就可以很容易地利用公式得到新的标准差,只需要计算新加入数据平方的和并将其加入sum中,同时更新count值,随后将它们插入计算中就可获得新的标准差。这些都不用重新扫描整个数据集而可以轻松得到。这就是代数度量,可以容易进行增量计算。
中位数:要准确得到中位数必须扫描整个数据集。当加入了新的数据后必须重新进行排序,然后在新的排序后的数据集中查找中位数。这是比较困难的,这就是整体度量,没办法对增量进行有效的计算。
4.【p63 2.6】数据缺省值处理
(1)忽略元组。当缺少类标号时通常这样做(假定挖掘任务涉及分类)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺少值的百分比变化很大时,它的性能特别差。
(2)人工填写缺失值。一般该方法很费时,并且当数据集很大,缺少很多值时,该方法可能行不通。
(3)使用一个全局常量填充缺失值。将缺失的属性值用同一个常数(如“Unknown”)替换如果缺失值都用“Unknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值“Unknown”。因此,尽管该方法简单,但是它并不是十分可靠。
(4)使用属性的均值填充缺失值。
(5)使用与给定元组属同一类的所有样本的属性均值。
(6)使用最可能的值填充缺失值。可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。
5.【p63 2.7】
(1)问:使用分箱均值光滑对数据进行光滑的步骤(深度为3)
答:①对数据进行排序;②将数据划分到大小为3的等频箱中;③计算每个箱的均值;④箱中的值都被箱的均值替换。
(2)问:如何确定数据中的离群点
答:可以通过聚类来检测离群点,将类似的值组织成群或簇。直观地,落在簇集合之外的值视为离群点。电脑和人的检查可以结合来判断,先由电脑根据已有的数据分布状况得出可能的离散点,然后再由人来对这些可能的离散点进行进一步的分析来确定离散点,这样大大地减少了人单独工作的工作量。
(3)问:对于数据光滑还有哪些方法
答:类似的还有分箱中位数光滑,此时箱中的每一个值都被箱中位数替换。分箱边界光滑,箱中的最大和最小值同样被视为箱边界,箱中的每个值都被最近的边界值替换。一般来说,宽度越大光滑效果越大。箱可以是等宽的,每个箱值的区间范围是个常量。
此外可以用一个函数(如回归函数)拟合数据来光滑数据。线性回归涉及找出拟合两个属性的最佳线,使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩展,其中涉及的属性多于两个,并且数据拟合到一个多维曲面。
概念分层也可以用于数据光滑。
6.【p63 2.8】
问:数据集成需要考虑的问题
答:①实体识别问题。模式集成和对象匹配需要技巧,来自多个信息源的现实世界的等价实体必须能够匹配。②数据冗余。一个属性可能是冗余的,如果它能由另一个或另一组属性“导出”。属性或命名的不一致也可能导致结果数据集中的冗余。③数据值冲突的检测与处理。对于现实世界的同一实体,来自不同数据源的属性值可能不同,这可能是因为表示、比例或编码不同。
7.【p63 2.9】
(1)方差公式
(2)散布图:将每个值当做坐标对画点
qq图:将数据都按递增序排序,然后画点
(3)z-score规范化(零均值规范化)属性 (数值减去均值除以标准差)
(4)答案是0.82,非常相关。
卡方检验公式
其中oij是实际计数,eij是期望频度。
8.【p63 2.12】
(1)最小最大规范化
(2)小数定标规范化,移动小数点位置进行规范,移动位数取决于最大绝对值。
(3)更愿用哪种规范方法?。
小数定标。∵保持了数据的结构并且是直观表达并仍然可以在age的组内进行挖掘。最大最小有一个多余的功能就是禁止了任何未来值落在现在的最小最大值之外,没有考虑到“越界错误”,而未来的数据里可能出现。Z-score用标准差表示数据到平均值的距离,不像小数定标那样直观。
9.【p97 3.2】
(1)雪花型模式、事实星座形、星形网查询模型
雪花型模式和事实星座形都是星形模式的变种。雪花型模式的维表可能是规范化形式,以便减少冗余;事实星座形模式允许事实表共享维表。星形网查询模型由中心点发出的射线组成,其中每条射线代表一个维的概念分层,而概念分层的每个抽象级称为一个脚印,代表诸如上卷、下钻等OLAP操作可用的粒度。
(2)数据清理、数据变换、刷新
数据清理:检测数据中的错误,可能时订正它们。
数据变换:将数据由遗产或宿主格式转换成数据仓库格式。
刷 新:传播由数据源到数据仓库的更新。
(3)企业数据仓库、数据集市、虚拟仓库
①企业数据仓库收集了整个组织关于主题的所有信息,它提供企业范围内的数据集成,通常来自一个或多个操作数据库系统或外部信息提供者,并且是跨功能的。通常,它包含细节数据和汇总数据,其大小有数千兆字节到数百千兆字节到更多。它可以在传统的大型机、超级计算机服务器或并行结构平台上实现。它需要广泛的商务建模,可能需要多年设计和建设。 ②数据集市包含企业范围数据的一个子集,对于特定的用户群是有用的。其范围限于选定的主题。包括在数据集市的数据通常是汇总的。它可以再低价格的部门服务器上实现,基于UNIX/LINUX或Windows。它的实现周期一般是一周计,而不是以月计或以年计。然而如果它的设计或规划不是企业范围的从长远讲可能涉及很复杂的集成。独立数据集市数据来自一个或多个操作系统或外部信息提供者,或者在特定的部门或地域局部产生的数据;依赖的数据集市的数据直接来自企业数据仓库。
③虚拟仓库是操作数据库视图的集合。为了有效地处理查询,只有一些可能的汇总视图可以物化。虚拟仓库易于建立,但需要操作数据库服务器具有剩余能力。
10.【p98 3.4】
(1)雪花型模式图
(2)求每个学生CS课程的平均成绩,OLAP操作
①在course维表中由course_id上卷到department
②在student维表中由student_id上卷到university
③按如下选择对中心立方体切块:(department=“CS”) and (university = “Big University”)
(3)如果每维有5层,则立方体包含54=625个方体
11.【p98 3.5】
(1)观看节目的星形模式图
(2)列出20xx年学生观众GM-Place的总付费,需要采用哪些OLAP。
在date上由date_id上卷到year;在game上由game_id上卷到all;在location上由location_id上卷到location_name;在spectator上由spectator_id上卷到status;按以下选择进行切块:(status=“student”)and(location=“GM_Place”)and(year=2004)
(3)位图索引结构的优点和问题。
对于基数较小的域,位数索引非常有用,因为比较、连接和聚集操作都变成了位算术运算,大大减少了处理时间。由于字符串可以用单个二进位表示,位图索引显著降低了空间和I/O
开销。对于基数较高的域,需要使用压缩技术才可以使用这个技术,就像例子中的date,这个位向量是非常长的,十年收集的数据就会得到3650条日期记录,也就意味着date位向量有3650个二进位。
12.【p98 3.6】
简略讨论星形模式和雪花型模式的相似点和不同点,分析相对优缺点。哪种模式更实用,给出观点并陈述理由。
答:相似点:他们都有一个事实表和多个维表。
主要区别:雪花型模式有些维表是规范的,把数据进一步分解到附加的表中。
星形模式的优点是非常简易,使得操作有效率。但它需要更多的空间。
雪花型模式易于维护并节省存储空间。但是与巨大的事实表相比,这种空间的节省可以忽略,由于执行查询需要更多的连接操作,它可能降低浏览的性能。
因此星形模式更实用,因为只要需占用的空间不是特别大,效率是要比空间优先考虑的。在一些工厂里,有时会将雪花型模式中的数据转换成星形模式来加速处理过程。
13.【p97 3.9】
(1)列出度量的三种类型
度量可以根据所用的聚集函数类型分成三类,即分布的、代数的和整体的
(2)方差属于哪一类,如果数据分成了块,描述怎么计算
答:方差属于代数的。如果立方体被分割成了一些块,方差可以照以下步骤求得:首先挨个读出每个块中的数据,同时累加元组求得xi2的和xi的和。当读完所有块的数据后,计算xi的均值,之后按提示中给出的公式进行求解即可得到方差。
(3)函数是最高的10个销售额,如何有效地计算该度量。
对于每个方体,用10个单位来存储目前最高的10个销售额。读取每个方体中的数据,如果某个元组中的销售额比存储的最高的10个销售额中的一个高,就将该销售额加入到最高的10个销售额列表中,同时剔除原列表中最小的那个数据。通过该操作的不断循环执行,最终可以得到最高的10个销售额。
14.【p97 3.14】
三种主要的数据仓库应用:信息处理、分析处理和数据挖掘的区别是什么。讨论OLAP挖掘(OLAM)动机
答:信息处理支持查询、基本的统计分析,并使用交叉表、表、图表或图进行报告。
分析处理支持基本的OLAP操作,包括切片与切块、下钻、上卷和转轴。一般对汇总和详细历史数据操作,支持数据仓库数据的多维数据分析。
数据挖掘支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并使用可视化工具提供挖掘结果。
OLAM的动机有以下几点:
①数据仓库中数据的高质量。经过预处理而构造的数据仓库不仅用作OLAP,而且也用作数据挖掘的有价值的数据源。②环绕数据仓库的信息处理基础设施。全面的数据处理和数据分析基础设施已经或将要围绕数据仓库而系统地建立,谨慎的做法就是尽量利用可用的基础设施,不是一切从头做起。③基于OLAP的探测式数据分析。有效的数据挖掘需要探测式数据分析。用户常常想遍历数据库,选择相关数据,在不同粒度上分析它们,并以不同的形式提供知识/结果。④数据挖掘功能的联机选择。用户常常不知道挖掘什么类型的知识,通过将OLAP与多种数据挖掘功能集成在一起,为用户选择所期望的数据挖掘功能,动态改变数据挖掘任务提供了灵活性。
15.【p177 5.1】
(1)项集s的任意非空子集s’的支持度至少和s的支持度一样大
令D为相关事务数据,|D|为事务的数量。通过定义知
support(s)=support_count(s)/|D|
设s’为s的任意非空子集。通过定义得
support(s’)=support_count(s’)/|D|
因为support_count(s’)>= support_count(s),所以support(s’)>= support(s)。
(2)给定频繁项集l和l的子集s,证明“s’=>(l-s’)”的置信度不可能大于“s=>(l-s)”的置信度,其中s’是s的子集。
答:令s是l的一个子集,则confidence(s=>(l-s))=support(l)/support(s)
令s’是s的一个子集,则confidence(s’=>(l-s’))=support(l)/support(s’)
因为support(s’)>= support(s),所以confidence(s’=>(l-s’))<= confidence(s=>(l-s))
(3)apriori的一种变形将事务数据库D中的事务划分成n个不重叠的部分,证明在D中频繁的任何项集至少在D的一个部分中是频繁的。
答:假设频繁项集在D的任何部分中都不频繁。
设F为D的任何频繁项集。令D是相关事务数据集。令C是D中事务的总数量。令A是D中包含F的事务数量。令min_sup是最小支持度阈值。
因为F是频繁项集,所以A=C*min_sup.
令D分成n个不重叠的部分,d1,d2?dn。那么D=d1d2?dn.
令c1 c2?cn分别是各部分d1?dn的事务数量。则C=c1+c2+?+cn
令a1 a2?an分别是各部分d1?dn中包含F的事务数量,则A=a1+a2+?+an
A=C*min_sup即a1+a2+?+an=( c1+c2+?+cn)* min_sup①
由假设知F在各部分d1?dn中都不是频繁的,所以ai<ci*min_sup(i=1,2,3,?,n)
把式子加起来得a1+a2+?+an<( c1+c2+?+cn)* min_sup,②
可得①②矛盾,所以原假设不成立。
16.【p177 5.3】
效率比较:apriori需要多次扫描数据,而FP增长算法在FP树建立过程只对数据进行一次扫描。Apriori产生许多候选项集,而FP增长算法根本不产生候选项集。
(2)ko->e oe->k
17.【p177 5.5还用写具体的得到频繁项集的过程吗 写】
新书
1.【1.24】
向量x属于Ck类的概率为p(Ck|x)。如果将x判为Cj
类就会造成一个大小为
的期望损失,如果选择拒绝这一判别就会造成λ损失,设
j=arg 则若要最小化期望损失需要
对于损失矩阵,Lkj=1-Ikj
,则 =1- p(Ck|x)。当1- p(Ck|x)>λ时会拒绝,即最大也有p(Ck|x)<1-λ这和拒绝标准中最大的概率小于θ一样,所以θ=1-λ
2.【1.25】
由题意得
求偏导得
求y(x)得
3.【3.4】
利用题中公式1得
由公式2得
当在εni的分布下做出期望时,可以看到第二项和第五项消失,由于E[εni]=0,对于第三项可以得到,因为εni都独立,方差为σ2 ,所以
4.【4.9】 似然函数是 取对数得
为了最大化关于πk的似然对数,需要维持约束 。引入拉格朗日参数λ,最大化
令πk的衍生值为0,得即 对两边在k上求和得λ=-N,用这个来消除λ就可以得到。
数据挖掘实训总结
数据挖掘是现代兴起的技术,它被广泛地应用于各种行业中,如零售业、银行、电信等等。通过学习数据仓库与数据挖掘技术这一门课程,我基本掌握了数据挖掘的概念、功能、算法、模型的构建。当然,这些只是理论知识,更多的收获在于实训过程。
在实训中,我们借用相应的软件,构建数据挖掘模型。我们主要学习了决策树模型、贝叶斯分类器两种模型的构建及分析。通过自己动手,把理论用于实践中,懂得决策树和贝叶斯分类的区别、两者的优缺点。更重要的是我们能够更深入地掌握了决策树的ID3算法。这个算法能够普遍的用于企业的数据分析。同时,关联规则算法也很重要。关联规则就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。在关联规则算法中,主要侧重于置信度和支持度。置信度和支持度的计算并不是很复杂,而我们也知道在一些县城、乡镇的超市或者是小型零售店,他们很少拥有技术人员运用软件来构建模型分析,但关联规则算法对于他们来说是可以实现且非常有用的。我觉得如果我以后开店做生意,我也会用关联算法来分析我的客户需求。
数据挖掘总结职业篇数据分析微信公众号datadw关注你想了解的分享你需要的前面对数据挖掘相关资源等等进行了总结但是很多人不明白学习…
深入浅出谈数据挖掘段勇编者的话本文对数据挖掘概念的产生数据挖掘与常规数据分析的主要区别所能解决的几大类问题和所应用的领域都有着非常…
正如柏拉图所说:需要是发明之母。随着信息时代的步伐不断迈进,大量数据日积月累。我们迫切需要一种工具来满足从数据中发现知识的需求!而…
1p2613假设你是BigUniversity的软件工程师任务是设计一个数据挖掘系统分析学校课程数据库该数据库包括如下信息每个学生…
一数据挖掘数据挖掘是运用计算机及信息技术从大量的不完全的数据集中获取隐含在其中的有用知识的高级过程Web数据挖掘是从数据挖掘发展而…
正如柏拉图所说:需要是发明之母。随着信息时代的步伐不断迈进,大量数据日积月累。我们迫切需要一种工具来满足从数据中发现知识的需求!而…
--20xx年x月x日,中山大学,园东区203电信行业是数据挖掘技术应用的传统行业,其挖掘题材之丰富,其挖掘应用之广泛,一直令不少…
数据挖掘功能的特点及主要挖掘方法一、数据挖掘功能的特点及主要挖掘方法数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下…
名词解释:商务智能:商务智能是数据仓库、联机分析处理(OLAP)和数据挖掘等相关技术走向商业应用后形成的一种应用技术。数据仓库(D…
数据挖掘中分类算法小结数据仓库,数据库或者其它信息库中隐藏着许多可以为商业、科研等活动的决策提供所需要的知识。分类与预测是两种数据…