数据挖掘基础实验

Web数据挖掘实验报告

Web数据挖掘 实 验 报 告 指导教师 李晟

数据挖掘基础实验

2012至2013学年 第二学期

实验次数及名称:实验一 数据挖掘基础实数据挖掘基础实验验 实验评价(教师): 实验日期: 2013 年 05 月 23 日 实验地点:05405 实验目的:

深入理解数据挖掘的概念及其应用;

掌握查找学术资料的方法;

熟悉集成、分析资料的方法

实验结果

一、详细了解案例“尿布+啤酒”的完整知识与背景

“啤酒与尿布”的故事产生于 (1)、发生的环境和背景:(/share/100990171/147xxxxxxxx) 20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。经过管理人员对此现象的分析,沃尔玛开始了一系列的营销策划,使得尿布和啤酒这两种不着边际的产品联系在了一起,并得到了更为广泛的销售面和很好的商品销售收入。这就是“啤酒与尿布”故事的由来。

在技术方面,沃尔玛最 早在门店尝试计算机记账,最早在门店收款台尝试使用外形丑陋俗称“牛眼”的条码扫描器进行收款,世界上第一个发射私人通信卫星等等。沃尔玛从上个世纪90年代尝试将A prior算法引入到POS机数据分析中,并获得了成功。“前人栽树,后人乘凉”,目前运用于门店管理的很多技术手段都是沃尔玛做了“第一个吃螃蟹”的,

案例“尿布+啤酒”的发生是在不经意间引起的,可这个不经意依靠着管理人员的慧眼与沃尔玛公司的先进技术支持变成了商业界人人歌颂的经典案例。这是数据挖掘的魅力,这是数据挖掘的强大,这更是数据挖掘的

(二)、采用的分析技术、方法。

计算机记账

A prior算法

商品销售相关性与关联商品(研究商品关联关系的方法就是购物篮分析)

美式购物篮分析(找出购物篮中商品之间关系的方法,这种方法适合应用于类似沃尔玛这样的大卖场,用于找出不同陈列区域商品之间的 关系。)

日式购物篮分析(分析所有影响商品销售的关联因素,比如天气、温度、时间、事件、客户群体等,这些因素我们称为商品相关性因素。)

1

(三)、具体发生过程

“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。

(四)、同时产生的其他结果、结论

由“尿布+啤酒”的案例,使得沃尔玛在商业界日益红火,“前人栽树,后人乘凉”,更多的企业模仿着“尿布+啤酒”的案例获得了成功

案例“尿布+啤酒”的成功有两个条件

第一个是沃尔玛先进的计算机技术是“啤酒与尿布”故事产生的强大支持后盾。

第二个原因是沃尔玛拥有一双锐利的慧眼。(管理人员的慧眼)

没有这两个基础,也许人们对数据挖掘的概念会晚上几年或是几十年

(五)外界对该事件的反应和评价

外界视“啤酒与尿布”的故事是营销届的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长!

营销界很多人对于“啤酒与尿布”的故事津津乐道,吹捧得如同发现新大陆般!“啤酒与尿布”的故事就是商品交叉销售,这种销售现象几乎和人类历史一样悠久,在古人披着兽皮交换贝壳、粮食、石斧等商品时,他们已经清楚地了解商品交叉销售对于商品交易的重要性,一些聪明的家伙会采取种种措施鼓励客户多交换一些商品(估计是一袋贝壳加一条鱼换一袋大米)。“啤酒与尿布”的故事只是对商品交叉销售现象的一种现代解释,并不是出现“啤酒与尿布”的故事之后,才存在商品交叉销售的现象。从这个意义上讲,沃尔玛并没有发现新大陆,只不过把我们视而不见的现象挖出来,并从中发现了商业价值。沃尔玛的创始人老沃尔顿说,retail is detail (零售就是细节)。

2

(六)、经典的DM案例

DM杂志成功运营的最经典案例?――慧聪国际资讯有限公司与DM营销90年代初期电脑、电器市场价格混乱。一条街上从一种电脑卖80种价格,能相差20%。冰箱也一样,同款阿里斯顿冰箱的价差高达370元。郭凡生发现,电脑、电器市场最大的问题是价格开放后没有人披露价格,于是他下决心靠打破这种信息阻滞来创造财富。他和朋友注册慧聪公关信息资讯有限公司,在当时的《首都经济信息报》和《计算机世界》上开辟家电和计算机产品报价,并油印小16开本《中国商情快报――家用电器》(此时没有正式的批号,没有政府管理部门认可,算是街头小广告,也就是DM的前身),面向北京家电商场等发行。 ??? 这本每周印的小册子把中关村的电脑的价格收集在一起进行了集中披露,起到一个使价格公开的作用。开始很多的商家都拒绝刊登,但慧聪商情出了几期以后,中关村的大小老板们一面抱怨老郭的商情削薄了自己的利润,一面花钱找他刊登商情――不登就很难做买卖了,因为大家现在都拿着商情的报价去买东西。 ??? 中关村商情的成功推出以后,慧聪的业务模式推向了北京、上海、南京、武汉、青岛、济南、昆明,很快便在中国30多个城市形成了这样一个IT、家电的市场评抑体系。这不但使慧聪完成了200多万元的原始积累,也使它拥有了独具特色的商情数据库和大量的稳定用户。 ??? 19xx年,《慧聪商情广告》经国家工商总局批准并允许在全国发行(其性质就是DM),成为以商情报价、产品广告、产品技术信息为主的印刷品广告信息媒体也即是专业的DM营销运营企业。 ??? “慧聪”在DM营销上也有很多的创新,他们将30多个数据库合在一起,利用企业花钱提供给的商情信息进行市场分析、市场监测、更好地

(七)为什么“尿布+啤酒”会成为经典的案例

沃尔玛的“啤酒与尿布”的故事实际上向我们揭示了零售业未来的获利及生存模式。他凸显了零售卖场中一个全新的管理理念,即商品之间是具有关联关系的,发现并利用这些商品之间的关联关系,可以在无法大幅增加门店客户数的前提下,通过增加购物篮中的商品数量达到增加销售额的目的,从而获得更大的经营收益。

启示一:购物篮大于商品

为什么沃尔玛会以购物篮为管理重点?沃尔玛认为商品销售量的冲刺只是短期行为,而零售企业的生命力取决于购物篮。一个小小的购物篮体现了客户的真实消费需求和购物行为,每一只购物篮里都蕴藏着太多的客户信息。零售业的宗旨是服务客户,沃尔玛认为商店的管理核心应该是以购物篮为中心的顾客经营模式,商品排名只能体现商品自身的表现,而购物篮可以体现客户的购买行为及消费需求,关注购物篮可以使门店随时掌握客户的消费动向,从而使门店始终与客户保持一致。

启示二:购物篮方面的差距

购物篮的表现形式就是我们常说的“客单价”,客单价的高低直接反映了零售企业的经营效益。根据AC·尼尔森20xx年对国内零售企业的调查发现, 从周一到周五正常工作日,同样一个万米经营面积的大卖场,国内卖场的平均客单价是29元,家乐福、沃尔玛、欧尚等国际零售巨头卖场的客单价为75元,好又多、大润发、乐购等台资卖场客单价为50元。到了周末(周六、周日)的差距更大,国内卖场客单价为35元,台资卖场客单价为80元,外资卖场可以达到 149元,这就是我们国内企业在购物篮方面的差距(见图1-1)。

我们知道,销售额=客单价×客流数。在同等客流量的情况下,我们的企业由于客单价低,已经先失一着,销售业绩要比外资企业低200%,比台资企业低60%。此外,销售额低会带来很多问题,比如毛利额低、通道费低、与供应商的话语权降低,甚至会直接影响到企业的生存。因此,要想提高商业企业的销售 业绩,必须改善企业购物篮,全面提升客单价,可以说零售企业的购物篮代表了企业的生存权!

尤其要注意的是,沃尔玛、欧尚等外资零售企业在国内只有区区的十几家门店,居然占据了非常大的市场份额,充分显示了这些外资零售企业在购物篮方面的确有“高招”。

3

“啤酒与尿布”故事的依据是商品之间的相关性(也称关联性,英文名称为association rule),商品相关性是指商品在卖场中不是孤立的,不同商品在销售中会形成相互影响关系(也称关联关系),比如“啤酒与尿布” 故事中,尿布会影响啤酒的销量。在卖场中商品之间的关联关系比比皆是,比如咖啡的销量会影响到咖啡伴侣、方糖的销售量,牛奶的销量会影响面包的销售量等等。

所谓事物之间的相关性是指当一个事物变化时,另一个事物也会发生变化。当事物之间的变化是相互抵消的,比如猪肉价格上涨、猪肉销量下降,我们称这种相关性是负相关;当事物之间的变化呈现同一个方向发展时,比如气温上升、冷饮销量也上升,我们称这种相关性是正相关。

有些事物的相关性显而易见,有些则不是那么明显。美国华尔街股票分析师将女性超短裙的长度与道琼斯股票指数建立了关联,超短裙的长度与股票指数 成反比趋势,据说十分灵验,这就是相关性在生活中的种种体现。

商店中的关联性更是比比皆是,比如烟酒销售的关联关系:当门店附近有建筑工地时,低档烟、酒的销售就会上升;当附近有高档社区时,中华烟、葡萄酒的销售量就会上升。

提到商品相关性,很多人认为就是数据分析的事儿,其实对于商品相关性来说,更重要的是客户心理层面的因素,毕竟是人在提着购物篮,而不是猴子。

客户在购物时的心理行为是产生商品之间关联关系最基本的原因,因此在找到购物篮规律时,必须要从客户消费心理层面解释这些关联关系,否则“啤酒与尿布”会永远停留在啤酒与尿布两个商品身上,而没有任何的推广意义。要想详细了解商品相关性形成的客户心理因素,要进行大量的客户消费行为观察,构建客户购物篮场景,才可使“啤酒与尿布” 的故事发扬光大。

二、详细了解DM在不同领域、不同角度中的定义。 1.技术上的定义及含义

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。

从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。 4

这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。

2.商业角度的定义

数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。

简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的(Opportunistic)商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。

因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

数据挖掘定义的分类

直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。

·间接数据挖掘:目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。

分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘.

美国直邮及直销协会(DM/MA)对DM的定义如下:"对广告主所选定的对象,将印就的印刷品,用邮寄的方法传达广告主所要传达的信息的一种手段。"DM除了用邮寄以外,还可以借助于其他媒介,如传真、杂志、电视、电话、电子邮件及直销网络、柜台散发、专人送达、来函索取、随商品包装发出等。DM与其他媒介的最大区别在于:DM可以直接将广告信息传送给真正的受众,而其他广告媒体形式只能将广告信息笼统地传递给所有受众,而不管受众是否是广告信息的真正受众。

三、简单了解DM与数据仓库、OLAP的关系:区别、联系。

(一)数据挖掘与OLAP的联系与区别:

5

所谓OLAP(Online Analytical Process)意指由数据库所连结出来的在线分析处理程序。有些人会说:「我已经有OLAP的工具了,所以我不需要Data Mining。」事实上两者间是截然不同的,主要差异在于Data Mining用在产生假设,OLAP则用于查证假设。简单来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否成立;而Data Mining则是用来帮助使用者产生假设。所以在使用OLAP或其它Query的工具时,使用者是自己在做探索(Exploration),但Data Mining是用工具在帮助做探索。

举个例子来看,一市场分析师在为超市规划货品架柜摆设时,可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品,接着便可利用OLAP的工具去验证此假设是否为真,又成立的证据有多明显;但Data Mining则不然,执行Data Mining的人将庞大的结帐数据整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于数据中的潜在规则,于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现,这是OLAP所做不到的。

Data Mining常能挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系,是以Data Mining此种自动找出甚至不会被怀疑过的数据模型与关系的特性,事实上已超越了我们经验、教育、想象力的限制,OLAP可以和Data Mining互补,但这项特性是Data Mining无法被OLAP取代的。 小结:DM是智能化的OLAP

数据挖掘DM与联机分析处理DLAP都属于分析型工具,但两者之间有着明显的区别。DM是一种挖掘型工具,DM它能自动地发现隐藏在数据中的模式( Pattern)。DM是一种有效地从大量数据中发现潜在数据模式、作出预测性分析的分析工具,它是现有的一些人工智能、统计学等成熟技术在特定的数据库领域中的应用。DM与其他分析型工具最大的不同在于:它的分析过程是自动的。一个成熟的DM系统,除了具有良好的核心的技术外,还应该具有开放性的结构,友好的用户接口。DM的用户不必提出确切的问题,而只需DM去挖掘隐藏的模式并预测未来的趋势,这样更有利于发现未知的事实。 OLAP是一种自上而下、不断深入的分析工具:用户提出问题或假设,OLAP负责从上至下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。与DM相比,OGAP更多地依靠用户输入问题和假设,但用户先入为主的局限性可能会限制问题和假设的范围,从而影响最终的结论。因此,作为验证型分析工具,QLAP更需要对用户需求有全面而深入的了解。 显然,从对数据分析的深度的角度来看,SLAP位于较浅的层次,而Dh}所处的位置则较深。如果按E.F. Codd的数据分析模型来区分这两者,那么应该说OLAP实现了解释模型和思考模型,而DNd则实现了更深的第四层—公式模型。所处分析模型层次的不同决定了这两者的分析能力和所能回答的问题种类也不相同。

(二)DM与数据仓库的联系与区别

若将Data Warehousing(数据仓库)比喻作矿坑,Data Mining就是深入矿坑采矿的工作。毕竟Data Mining不是一种无中生有的魔术,也不是点石成金的炼金术,若没有够丰富完整的数据,是很难期待Data Mining能挖掘出什么有意义的信息的。

要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。随着科技的进步,功能完善的数据库系统就成了最好的收集数据的工具。数据仓库,简单地说,就是搜集来自其它系统的有用数据,存放在一整合的储存区内。所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统(Design Support System)所需的数据,供决策支持或数 6

据分析使用。从信息技术的角度来看,数据仓库的目标是在组织中,在正确的时间,将正确的数据交给正确的人。

许多人对于Data Warehousing和Data Mining时常混淆,不知如何分辨。其实,数据仓库是数据库技术的一个新主题,利用计算机系统帮助我们操作、计算和思考,让作业方式改变,决策方式也跟着改变。

数据仓库本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的数据,特别是指事务处理系统OLTP(On-Line Transactional Processing)所得来的数据。将这些整合过的数据置放于数据昂哭中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓库最大的挑战。因为将作业中的数据转换成有用的的策略性信息是整个数据仓库的重点。综上所述,数据仓库应该具有这些数据:整合性数据(integrated data)、详细和汇总性的数据(detailed and summarized data)、历史数据、解释数据的数据。从数据仓库挖掘出对决策有用的信息与知识,是建立数据仓库与使用Data Mining的最大目的,两者的本质与过程是两回事。换句话说,数据仓库应先行建立完成,Data mining才能有效率的进行,因为数据仓库本身所含数据是干净(不会有错误的数据参杂其中)、完备,且经过整合的。因此两者关系或许可解读为Data Mining是从巨大数据仓库中找出有用信息的一种过程与技术。

四、结合上述的实验内容,总结自己对DM的认识。

Data Mining在各领域的应用非常广泛,只要该产业拥有具分析价值与需求的数据仓储或数据库,皆可利用Mining工具进行有目的的挖掘分析。一般较常见的应用案例多发生在零售业、直效行销界、制造业、财务金融保险、通讯业以及医疗服务等。

于销售数据中发掘顾客的消费习性,并可藉由交易纪录找出顾客偏好的产品组合,其它包括找出流失顾客的特征与推出新产品的时机点等等都是零售业常见的实例;直效行销强调的分众概念与数据库行销方式在导入Data Mining的技术后,使直效行销的发展性更为强大,例如利用Data Mining分析顾客群之消费行为与交易纪录,结合基本数据,并依其对品牌价值等级的高低来区隔顾客,进而达到差异化行销的目的;制造业对Data Mining的需求多运用在品质控管方面,由制造过程中找出影响产品品质最重要的因素,以期提高作业流程的效率。

近来电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测(Fraud Detection)都很有兴趣,这些行业每年因为诈欺行为而造成的损失都非常可观,Data Mining可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易,达到减少损失的目的。财务金融业可以利用 Data Mining来分析市场动向,并预测个别公司的营运以及股价走向。Data Mining的另一个独特的用法是在医疗业,用来预测手术、用药、诊断、或是流程控制的效率。

实验总结: 经过本次试验,我接触到了购物篮分析的基本概念 ,了解了数据挖掘的概念及其应用;对于学术资料的方法也有新的认识,比如利用校园图书馆下载资料等等;了解到了集成、分析资料的方法,虽然不是很深入,但也有所收获,掌握了新的资料获取方法

7

相关推荐