《数据仓库与数据挖掘》课程设计报告模板

江西理工大学应用科学学院

《数据仓库与数据挖掘》课程设计报告

题 目:某超市数据集的OLAP分析及数据挖掘

系 别:                        

班 级:          

姓 名:                           

二〇##年六月


目  录

一、建立数据仓库数据库结构和设置数据源............................................................... 1

1.   任务描述..................................................................................................................... 2

2.   建立数据仓库数据库...................................................................................................

3.   设置数据源.................................................................................................................

二、销售数据OLAP分析..............................................................................................

1.    任务描述.....................................................................................................................

2.    设计星型架构多维数据集(Sales)..................................................................................

3.    设计存储和数据集处理................................................................................................

4.    OLAP分析..................................................................................................................

三、人力资源数据OLAP分析......................................................................................

1.    任务描述....................................................................................................................

2.    设计父子维度的多维数据集(HR).................................................................................

3.    修改多维数据集(HR)的结构........................................................................................

4.    设计存储和数据集处理...............................................................................................

5.    OLAP分析..................................................................................................................

四、数据仓库及多维数据集其它操作...........................................................................

1.       任务描述....................................................................................................................

2.       设置数据仓库及多维数据集角色及权限.......................................................................

3.       查看元数据.................................................................................................................

4.       创建对策....................................................................................................................

5.       钻取...........................................................................................................................

6.       建立远程 Internet 连接...............................................................................................

五、数据仓库高级操作...................................................................................................

1.    任务描述.....................................................................................................................

2.    创建分区.....................................................................................................................

3.    创建虚拟多维数据集...................................................................................................

4.    DTS调度多维数据集处理............................................................................................

5.    备份/还原数据仓库 ....................................................................................................

六、数据挖掘...................................................................................................................

1.    任务描述.....................................................................................................................

2.    创建揭示客户模式的决策树挖掘模型...........................................................................

3.    决策树挖掘结果分析...................................................................................................

4.    创建聚类挖掘模型.......................................................................................................

5.    聚类挖掘结果分析.......................................................................................................

6.    创建基于关系数据表的决策树挖掘模型.......................................................................

7.    浏览“相关性网络”视图............................................................................................


一、建立数据仓库数据库结构和设置数据源

1、任务描述

数据仓库数据库是将要在其中存放多维数据集、角色、数据源、共享维度和挖掘模型的一种结构。然后跟预先设置好的ODBC数据源建立连接。

2、建立数据仓库数据库

(1)   展开树视图的Analysis Servers;

(2)   单击服务器名或右击选择连接,与Analysis Servers建立连接;

(3)   右击服务器名,然后单击“新建数据库”命令;

(4)   在“数据库”对话框中输入数据库名“教程DW”,单击<确定>;

3、设置数据源

(5)   展开刚创建的“教程DW”数据库,可看到如下项目:数据源、多维数据集、共享维度、挖掘模型、数据库角色

(6)   右击“教程DW”数据库下的“数据源”文件夹,然后单击“新数据源”命令;

(7)   在“数据链接属性”对话框中,单击“提供程序”选项卡,选择“Microsoft OLE DB Provider for ODBC Drivers”;

(8)   单击“连接”选项卡,选择建好的ODBC数据源“FoodMart 2000”;

(9)   单击<确定>按钮关闭“数据链接属性”对话框

图表 1 连接数据源

二、销售数据OLAP分析

1.      任务描述

以多维方式建立数据模型可简化联机业务分析,提高查询性能。通过创建多维数据集,Analysis Manager 可将存储在关系数据库中的数据转换为具有实际含义并且易于查询的业务信息。

2.      设计星型架构多维数据集(Sales)

星型架构的多维数据集由一个事实数据表和链接到该事实数据表的多个维度表组成。

下面针对FoodMart超市1998年的销售业务数据,建立一个多维数据集,以便按产品和顾客2个主题展开分析。具体操作如下:

(1)展开树窗格的“教程DW”,右击“多维数据集”,选择“新建多维数据集”→“向导…”菜单命令,打开如下“多维数据集向导”对话框。

(2)向多维数据集添加度量值(事实) :

(3)单击<下一步>,在“从数据源中选择事实数据表”步骤中,展开“FoodMart”数据源,然后单击“sales_fact_1998”;

(4)单击<下一步>,设置多维数据集的度量值列: store_sales、store_cost、unit_sales;

(5)单击<下一步>,建立维度表。单击<新建维度>,打开“维度向导”对话框;

1)      向多维数据集添加时间维:

(1)选择维度类型为“星型架构:单个维度表”;

(2)单击<下一步>,选择维度表“time_by_day”;

(3)单击<下一步>,选择维度类型为“时间维度”;

(4)单击<下一步>,选择时间级别为“年、季度、月”;

(5)单击<下一步>,单击<下一步>,输入时间维名称: Time,并设为“共享”方式,单击<完成>,OK!

2)      向多维数据集添加产品维:

(1)再次单击<新建维度>,打开“维度向导”对话框;

(2)选择创建维度的方式为“雪花架构:多个相关维度表”;

(3)单击<下一步>,选择维度表“Product”和“product_class”;

(4)单击<下一步>,查看连接方式,在这里可删除不要的连接,添加需要的连接;

(5)单击<下一步>,依次选择product_category、product_subcategory和brand_name三个维度级别;

(6)单击<下一步>,指定成员键列步骤中,不需改变主键列;

(7)单击<下一步>,在“高级选项”步骤中,根据需要选择;

(8)单击<下一步>,输入产品维名称: Product,并设为“共享”方式,单击<完成>,OK!

3)      向多维数据集添加客户维度:

(1)再次单击<新建维度>,打开“维度向导”对话框;

(2)选择创建维度的方式为“星型架构:单个维度表”;

(3)单击<下一步>,选择维度表“Customer”;

(4)单击<下一步>,选择维度类型为“标准维度”;

(5)单击<下一步>,依次选择Country、State_Province、City和lname四个维度级别;

(6)单击<下一步>,指定成员键列步骤中,不需改变主键列;

(7)单击<下一步>,在“高级选项”步骤中,根据需要选择;

(8)单击<下一步>,输入客户维名称: Customer,并设为“共享”方式,单击<完成>,OK!

4)      生成多维数据集:

(1)回到多维数据集向导对话框,这里已 到了新建的4个维度;

(2)单击<下一步>,在“是否计算事实数据表行数提问时,单击<是>,开始计算。

(3)计算完成后,命名多维数据集为:Sales,单击<完成>,OK!

(4)关闭向导,随之启动多维数据集编辑器,其中可看到刚刚创建的多维数据集。单击蓝色或黄色的标题栏,对表进行排列,使其符合下图所示的样子

图表 2  “Sales多维数据集编辑器”窗口

3.       设计存储和数据集处理:

设计好 Sales 多维数据集的结构之后,需要选择数据的存储模式(MOLAP、ROLAP或HOLAP),并指定要存储的预先计算好的值的数量,然后用数据填充多维数据集。

  本例选择MOLAP作为存储模式,创建Sales多维数据集的聚合设计,然后从ODBC源中装载数据并按照聚合设计中的定义计算汇总值。

(1)展开树窗格,右击“Sales”多维数据集,选择“设计存储…”菜单命令,弹出“存储设计向导”对话框;也可在多维数据集编辑窗口中选择“工具|设计存储…”菜单命令,打开“存储设计向导”对话框;

(2)单击<下一步>,然后选择“MOLAP”作为数据存储类型 ;

(3)单击<下一步>,设置聚合选项为“性能提升达到”,并输入“40”作为指定百分比,以此优化能力平衡查询性能和存储空间大小。

(4)单击<开始>,完成后可看到“性能与大小”图,从中可看出增加性能提升对使用额外磁盘空间的需求。

(5)单击<下一步>,选择“立即处理”,并单击<完成>,系统开始进行数据处理,处理聚合一般要花费较长一些时间。

(6)处理完成后点击<关闭>,回到Analysis Manager窗口。

(7)接下来就可浏览多维数据集的数据了。

4.       OLAP分析:

联机分析处理(OLAP)是使用多维数据表达式(称为多维数据集)提供对数据仓库数据进行快速访问的常用方法。多维数据集为维度表中的数据和数据仓库中的事实数据表建立模型,并为客户端应用程序提供完善的查询和分析功能。

图表 3  OLAP分析图

三、人力资源数据OLAP分析

1. 任务描述:

建立一个人力资源(HR)多维数据集,以进行雇员工资分析。先把Employee维度创建为父子维度,然后使用该维度以及常规维度来生成HR多维数据集

2.  设计父子维度的多维数据集(HR):

(1)展开“教程DW”,右击“共享维度”,选择“新建维度|向导”菜单命令,打开“新建维度向导”对话框。

(2)单击<下一步>,选择维度结构为“父子:单个维度表中相关的两列”;

(3)单击<下一步>,选择维度表 employee;

(4)单击<下一步>,选择employee_id为成员键,选择supervisor_id为父键列,选择full_name为成员名。

(5)单击<下一步>,直到最后一步,输入维度名称: employee;

(6)  单击<完成>,回到维度编辑器。OK!

3. 修改多维数据集(HR)的结构

(1) 展开“教程DW”,右击“多维数据集”,选择“新建多维数据集|向导”菜单命令,打开多维数据集向导对话框。

(2) 点击<下一步>,选择salary(工资)作事实数据表;

(3) 点击<下一步>,选择salary_paid、vacation_used为度量值列;

(4) 点击<下一步>,选择Employee(雇员)、Store(商店)、Time(时间)作维度;

(5) 点击<下一步>,在提示是否计算事实数据表行数时选“是”。最后输入人力资源多维数据集的名称NR,点击<完成>,OK!

(6) 回到编辑器窗口,手工建立time_by_day表到salary表的联接,再建立 store表到employee表中的联接,删除多余的联接。最后如下图所示。

4. 设计存储和数据集处理

设计好 Sales 多维数据集的结构之后,需要选择数据的存储模式(MOLAP、ROLAP或HOLAP),并指定要存储的预先计算好的值的数量,然后用数据填充多维数据集。

本例选择MOLAP作为存储模式,创建Sales多维数据集的聚合设计,然后从ODBC源中装载数据并按照聚合设计中的定义计算汇总值。

(1)展开树窗格,右击“Sales”多维数据集,选择“设计存储…”菜单命令,弹出“存储设计向导”对话框;也可在多维数据集编辑窗口中选择“工具|设计存储…”菜单命令,打开“存储设计向导”对话框;

(2)单击<下一步>,然后选择“MOLAP”作为数据存储类型 ;

(3)单击<下一步>,设置聚合选项为“性能提升达到”,并输入“40”作为指定百分比,以此优化能力平衡查询性能和存储空间大小。

(4)单击<开始>,完成后可看到“性能与大小”图,从中可看出增加性能提升对使用额外磁盘空间的需求。

图表 4 性能与大小

(5)单击<下一步>,选择“立即处理”,并单击<完成>,系统开始进行数据处理,处理聚合一般要花费较长一些时间。

(6)处理完成后点击<关闭>,回到Analysis Manager窗口。

(7)接下来就可浏览多维数据集的数据了。

5.  OLAP分析

联机分析处理(OLAP)是使用多维数据表达式(称为多维数据集)提供对数据仓库数据进行快速访问的常用方法。多维数据集为维度表中的数据和数据仓库中的事实数据表建立模型,并为客户端应用程序提供完善的查询和分析功能。

四、数据仓库及多维数据集其它操作

1    任务描述

多维数据集角色用于定义可以访问和查询多维数据集的用户或组,指出其可以访问的对象,以及对这些对象的访问类型。

  角色是保护多维数据集内对象和数据安全的主要方法,可以在多维数据集的不同粒度级别上设置安全性。要定义安全性必须先创建角色,然后向这些角色授予权限。

   我们要创建Sales和HR角色分别用于访问多维数据集Sales和HR。Management角色用于管理整个数据仓库。

    

2    设置数据仓库及多维数据集角色及权限

多维数据集角色用于定义可以访问和查询多维数据集的用户或组,指出其可以访问的对象,以及对这些对象的访问类型。

  角色是保护多维数据集内对象和数据安全的主要方法,可以在多维数据集的不同粒度级别上设置安全性。要定义安全性必须先创建角色,然后向这些角色授予权限。

  本例中,我们要创建Sales和HR角色分别用于访问多维数据集Sales和HR。Management角色用于管理整个数据仓库。

  具体操作如下:

2.1   创建多维数据集角色:

(1) 展开“多维数据集”文件夹,右击“Sales”多维数据集,并选择“管理角色”命令,打开“多维数据集角色管理器”;

(2) 目前还没角色显示在角色列表中。点击<新建…>,打开新建角色对话框,并输入角色名:Marketing,表示市场部;

(3) 在“成员资格”选项卡中单击<添加>按钮,接着在“添加用户和组”对话框中,添加该角色的网络用户名(如hzm),单击<确定>回到新建对话框框框;

(4) 其它选项可暂不设定,直接点<确定>,回到角色管理器窗口,角色Marketing就已在列表中了。在这里可以看到各个角色的权限,也可修改它们的权限。

(5) <关闭>角色管理器。然后用同样的方法创建多维数据集HR的角色HR。

2.2   创建数据库角色:

  数据库角色是可在数据库范围内使用的角色,可指派给该数据库的一个或多个多维数据集。本例中我们可以为经理创建一个数据库角色,然后将其指派到Sales和HR两个多维数据集。具体操作如下:

(1)   在“教程DW”数据库下右击“数据库角色”,然后选择“管理角色”命令,打开“数据库角色管理器”窗口;

(2)   这里显示了“教程DW”数据库中现有角色的列表(包括刚建的Marketing和HR多维数据集角色);

(3)   单击<新建>,在弹出的对话框中输入角色名:Management,然后为该角色添加用户或组(如admin),并勾选多维数据集Sales和HR。最后点击<关闭>退出  

3    查看元数据

(1) 元数据是关于数据属性和数据结构的信息,此信息显示在 Analysis Manager 右窗格中。

(2) 查看多维数据集的元数据:展开“多维数据集”文件夹,单击某多维数据集,再单击右窗格的“元数据”;

(3) 查看维度的元数据:展开“共享维度”文件夹,单击一个维度,再单击右窗格的“元数据”。

    

4    创建对策

对策是指由最终用户启动的、在所选多维数据集或其某部分上执行的操作。

    Analysis Services管理员可以定义以下几种类型的对策:命令行、URL、OLE DB语句或多维表达式 (MDX) 语句。

    本例假设市场部想要针对上一节中创建的Sales多维数据集,能在分析过程的某一点跳转到Internet,以便能够搜索并找到关于某个特定客户的信息。

操作步骤如下:

(1)展开“教程DW”数据库,右击“Sales”多维数据集,然后选择“编辑”命令,打开多维数据集编辑器;

(2)右击“对策”文件夹,然后选择“新建对策”命令,启动对策向导,点击<下一步>;

(3)在“目标”框中选择“此多维数据集中的某一维度”,并单击“Customer”,点击<下一步> ;

(4)保持“对策类型”列表不变,继续单击<下一步>;

(5)在“定义对策语法”步骤中键入:“http://search.msn.com/ results.asp?q=” + [Customer].currentmember.name,意思是“通过浏览器调用MSN 搜索引擎搜索Customer维度中的当前客户的信息。

图表 5  对策语法图

(6)继续单击<下一步>,输入对策名称:Customer Info,点击完成。OK!

     

5    钻取   

本例假设市场部希望对商店和客户按从上到下进行分析,最终深化到关系数据库中的事务级别。为此,我们要在 Sales 多维数据集内启用钻取,然后浏览数据并深化到事务。

具体操作如下:

(1)展开“教程DW”数据库,右击“Sales”多维数据集并选择“编辑”命令,打开多维数据集编辑器;

(2)单击“工具|钻取选项…”菜单命令,打开“钻取选项”对话框;

(3)选择“启用钻取”复选框,并单击<全选>以选中所有列,然后单击<确定>,关闭对话框;

(4)接下来为不同的角色分配钻取权限。

(5)右击“Sales”多维数据集,并选择“管理角色…”命令,打开角色管理器;

(6)单击前面创建的“Management”角色,然后在“钻取”列中单击 <...> 按钮,打开角色权限设置对话框;

(7)选中“允许钻取”复选框,然后单击<确定>返回角色管理器;

这时可看到“Management”角色已获得钻取权。

(8)关闭角色管理器,回到分析管理器,右击“Sales”多维数据集,并选择“浏览数据…”命令,打开数据浏览器;

(9)双击展开统计列以显示不同级别的聚集数据。右击某数据(如USA→CA→Berkeley的销售额)并选择“钻取”命令,稍等将打开明细数据查看窗口,显示原始数据源中的明细数据

图表 6 钻取

6    建立远程 Internet 连接

SQL Server Analysis Services 能让用户借助客户端工具,通过Internet连接访问分析服务器数据库和多维数据集。

本示例介绍通过 HTTP 从 Excel 连接到分析服务器并访问多维数据集的操作。

具体步骤如下:

(1)准备:在分析服务器上安装Web服务(如IIS),从分析服务器的bin文件夹中复制Msolap.asp文件到默认站点文件夹(C:\Inetpub\wwwroot)中;

(2)启动客户端 Excel,选择“数据|数据透视表和数据透视图报表…”菜单命令;

(3)在向导第1步中选择“外部数据源”,然后单击<下一步>;

(4)在向导的第2步,单击<获取数据>,打开“选择数据源”对话框,然后选择“OLAP多维数据集”选项卡,并选中“<新数据源>”,然后单击<确定>;

(5)在接下来的对话框中,输入数据源名称:RemoteSales,在驱动程序列表中选择“Microsoft OLE DB Provider for OLAP Services 8.0”,然后单击<连接>;

(6)在接下来的对话框中,选中“分析服务器”并输入URL(如 http://Localhost,然后单击<下一步>;

(7)从连接到的远程分析服务器上选择数据库列表(如教程DW),然后单击<完成>,回到上级对话框;

(8)选定包含所需数据的多维数据集(如Sales),然后单击<确定>,最后一步点击<完成>,回到Excel工作表;

(9)接下来就可以在客户端电子表格中执行OLAP了。    

、数据仓库高级操作

1.  任务描述

多维数据集的数据可以存储在一个或多个分区上,在创建多维数据集时系统会自动为其分配一个默认分区。合理地将一个逻辑多维数据集划分为多个单独的物理分区,常常可以改进查询的性能,但不正确地分区也可能导致错误。  

2.  创建分区

多维数据集的数据可以存储在一个或多个分区上,在创建多维数据集时系统会自动为其分配一个默认分区。合理地将一个逻辑多维数据集划分为多个单独的物理分区,常常可以改进查询的性能,但不正确地分区也可能导致错误。 

 为多维数据集创建分区的步骤如下:

(1)展开“Sales”多维数据集,右击“分区”文件夹,然后选择“新建分区”命令,打开分区向导,单击<下一步>;

(2)在“指定数据源和事实数据表”步骤中,单击<更改>,然后选择“FoodMard”数据源的sales_fact_1997表,然后单击<确定>;

(3)继续单击<下一步>,在“选择数据切片(可选)”步骤中,选择“Time”维度,展(4)开“所有Time”级别并选择1997,继续单击<下一步>;

(5)在“指定分区类型”步骤中,选择“本地”并单击<下一步>;

(6)输入分区名称:Sales 97,并选择“从现有的分区(Sales)中复制聚合设计”和“完成时处理分区”,最后单击<完成>;

图表 7  分区

(7)处理完成后单击<关闭>,97年多维数据集将位于另一个名为Sales 97的分区上了。将来99、20##、…的数据也可分别存储在不同的分区上,这样既便于管理,也可提高查询的效率,特别对大型数据集,效果更加明显。

     

3. 创建虚拟多维数据集

虚拟维度是基于物理维度内容的逻辑维度。这些内容可以是物理维度中的现有成员属性,也可以是物理维度的表中的列。

  使用虚拟维度可基于成员属性对多维数据集数据进行分析。其优点是不占用磁盘空间或处理时间。下面创建一个带有Yearly Income(年收入)成员属性的虚拟维度,然后将这个新创建的维度添加到Sales多维数据集中。操作步骤如下:

(1) 右击“共享维度”文件夹,选择“新建维度|向导”菜单命令;

(2) 单击<下一步>,选择“虚拟维度:另一个维度的成员属性”,再单击<下一步>;

(3) 在“选择带有成员属性的维度”步骤中,单击“Customer”维度,再单击 <下一步>;在“选择虚拟维度的级别”步骤中,添加“Lname.Yearly Income”成员属性后再单击<下一步>,在“高级选项”步骤中直接单击<下一步>;

(4) 在“完成”步骤中,输入维度名称 “Yearly Income”;

(5) 单击<完成>。关闭向导。新建的虚拟维度“Yearly Income”已在共享维度列表中了。接下来就可向现有多维数据集添加虚拟维度了。

4.  DTS调度多维数据集处理

本例为Sales、HR和Expense Budget三多维数据集创建自动化过程,确保在每天早上3点钟从OLTP和 ERP导入前一天的新增业务数据。处理完成后再给管理员和关键用户发送电子邮件通知他们处理任务已顺利完成。

  具体操作如下:

(1)选择“开始|程序|Microsoft SQL Server|企业管理器”菜单命令,启动SQL Server企业管理器;

(2)逐级展开,直到看到“数据转换服务”文件夹下的“本地包”,右击“本地包”并选择“新建包”命令,打开DTS包窗口,接下来为2个多维数据集定义处理任务;

(3)点击DTS包窗口的左窗格中的“Analysis Services处理任务”图标,并将其拖动到空白窗格中,弹出“Analysis Services 处理任务”对话框;

(4)在对话框中,给第1个任务输入名称为Sales,并输入相应的描述,如Sales任务;

展开树窗格的“教程DW”数据仓库,单击“Sales”多维数据集,然后在右窗格选择处(5)理选项,选择“完整处理”;

(6)同样的方法为“HR”多维数据集创建另1个处理任务:HR任务;

(7)接下来指定任务执行的顺序:按住<Ctrl>键,依次选择Sales任务和HR任务,然后选择“工作流|完成时”菜单命令;

(8)将左窗格中的“发送电子邮件”图标拖至右窗格中,弹出“发送邮件任务属性”对话框,设置好相关参数后点<确定>,然后设置其处理顺序。最后以“Cubes处理”为名保存该包。

(9)回到企业管理器窗口,刚创建的包位于“本地包”文件夹中,接下来要为该包设置执行时间;

(10)右击“Cube处理”包,选择“调度包…”命令,弹出“作业调度”对话框;

在“每月”频率下,设置“第末一天,每1个月”,在“每日频率”下设置:“一次发生于:3:00:00AM”,单击<确定>;

(11)至此,多维数据集定期处理任务已定制完成,可以退出企业管理器了。OK!

5. 备份/还原数据仓库

5.1 以下3种情况可能需要对数据仓库进行存档:

5.1.1创建数据仓库的压缩备份;

(1)数据仓库不再用于日常分析了,先存档后删除,以后需要时还可还原;

(2)将数据仓库从一台服务器复制到另一台服务器。

5.1.2具体操作如下:

(1)在Analysis Manager树窗格中右击“教程DW”,然后单击“将数据库存档”命令,打开存档对话框;

(2)输入存档文件(.cab)保存位置及文件名,如d:\Program Files\Microsoft Analysis Services\Samples\教程.cab,最后点击<存档>。OK!

图表 8  备份

  5.2删除/还原数据仓库

(1)在要删除的数据仓库(如“教程DW”)上右击,然后选择“删除”命令,提示确认时点击<是>,该数据仓库将被删除。删除数据仓库之前最好先存档!

(2)利用数据仓库的存档CAB文件可将其还原到任一台分析服务器上。具体操作如下:右击Analysis Manager 的服务器名,然后选择“还原数据库…”,在接下来的对话框中选择存档文件,最后点击<还原>,稍等,存档的数据仓库就会被还原。

 

六、数据挖掘

1. 任务描述

将通过实例介绍如何创建用于揭示客户模式的数据挖掘模型。

   这里将创建一个数据挖掘模型以训练销售数据,并使用“Microsoft决策树”算法在客户群中找出会员卡选择模式。

   将需要挖掘的维度设置为客户,将Member_Card属性设置为挖掘算法识别模式的参考信息。然后从人口统计特征列表中确定模式:婚姻状况、年收入、在家子女数和教育程度。下一步需要训练模型,以便能够浏览树视图并从中读取模式。市场部将根据这些模式设计新的会员卡,实际上就是对会员卡重新分类 

2. 创建揭示客户模式的决策树挖掘模型

(1)展开“多维数据集”文件夹,右击“Sales”多维数据集,然后选择“新建挖掘模型”命令,打开挖掘模型向导;

(2)在“选择数据挖掘技术”步骤中,选择“Microsoft决策树”,然后单击<下一步>;

(3)在“选择事例”步骤中,选择维度为Customer, 级别选择Lname,然后单击<下一步>;

(4)在“选择被预测实体”步骤中,选择“事例级别的成员属性”,并选择“Member Card”,继续单击<下一步>;

(5)在“选择训练数据”步骤中,取消Customer维度的Country、State Province和City聚集成员前的勾√,继续单击<下一步>;

图表 9  勾选成员

(6)接下来输入新维度名“Customer Patterns”, “虚拟多维数据集名“Trained Cube”,继续单击<下一步>;

(7)在最后的步骤输入模型名“Customer patterns discovery”,并选择“保存并开始处理”,然后单击<完成>;

图表 10  模型向导

(8)处理完成后,单击<关闭>,然后“OLAP挖掘模型编辑器”将打开,最大化 编辑器窗口,右窗格中就能看到生成的决策树。右窗格分为4个区域,分别以不同的方式显示挖掘结果。

       

3. 决策树挖掘结果分析 

(1)在“内容详情”窗格的决策树区域中,颜色深浅代表“事例”的密度点击某节点能从“特性”框查看其出现的事例数,从这里还看到不同类型客户选择金、银、铜及普通卡的比例(偏好)情况。

(2)树的第一个级别“yearly income”,说明该属性的重要性最高(信息增益率最大),其中年收入为3~5万的人最多。

(3)在右下角设置“树颜色基于:Golden”,则可方便地看出偏好选择金卡的客户群为:年收入15万以上的已婚簇。从特性框中可以看出其购买金卡的概率达到45.09%,另外还有47.4%购买了银卡。再往下展开决策树可以看到,购买金卡的主要为已婚簇,未婚簇则购买银卡为主。

(4)同样也可以查看其它卡的客户类型及分布情况。

  市场部可以根据上述决策树挖掘结果来确定最可能选择某种类型卡的客户的特征。根据这些特征(年收入、子女数、婚姻状况等),可以重新定义会员卡服务和方案,以便更好地针对其客户。

4. 创建聚类挖掘模型

目标:通过创建聚类挖掘模型将客户群划分为不同的逻辑簇。

操作步骤如下:

(1)右击“Sales”多维数据集,然后选择“新建挖掘模型”命令,打开新建挖掘模型向导;

(2)在“选择数据挖掘技术”步骤中,选择“Microsoft聚集”,单击<下一步>;

在“选择事例”步骤中,选择维度“Customer”,级别为“Lname”,单击<下一步>;

(3)在“选择训练数据”步聚中,清除“Customer”维度的Country、State Province和City复选框(因为没有必要使用汇总级别划分客户群),然后在“度量值”维度中选择“Store Sales”,单击<下一步>;

(4)输入挖掘模型的名称“Customer segmentation”,选中“保存,但现在不处理”,然后单击<完成>。

     

5. 聚类挖掘结果分析

通过分析,市场部可以知道:Cluster1主要由中等收入的客户构成,而且全部为单身,每年在FoodMart商店平均花费72.42美元,由此可进一步采取有针对的营销策略。同样可找出Cluster2和Cluster3中的客户特征。    

6. 创建基于关系数据表的决策树挖掘模型

通过建立基于关系数据表的挖掘模型,可以挖掘出更详细的信息。

具体操作如下:

(1)右击“挖掘模型”文件夹,然后选择“新建挖掘模型”命令,打开挖掘模型向导;

(2)单击<下一步>,在“选择源类型”步骤中,单击“关系数据”,继续单击<下一步>;

(3)在“选择事例表”步骤中,单击“单个表包含数据”并选择“Customer”,然后单击<下一步>;

(4)选择挖掘技术为“Microsoft 决策树”,继续<下一步>;

(5)选择“事例键列”为“customer_id”,继续<下一步>;

     

7. 浏览“相关性网络”视图

相关性网络是Microsoft决策树另一视图模型,是对树浏览器的补充。树浏览器可以使观察者的注意力集中在单个特性的详细关系上,而相关性网络则显示所有特性的高级关系,给出数据中相关性的俯视图。

图表 11  相关性浏览视图

江西理工大学应用科学学院经管系

《数据仓库与数据挖掘》课程设计(论文)指导教师评分表

班级:     姓名:      学号:    

课程设计题目: 基于Foodmart超市数据集的OLAP分析及数据挖掘

                    指导老师签名:

                                      年   月   日

相关推荐