数据仓库与数据挖掘课程设计

数据仓库与数据挖掘实验报告

( 20## -- 20## 年度第一学期)

名    称:数据仓库与数据挖掘课程设计 

  题    目: 图书馆数据仓库系统分析与设计             

院    系:经济管理系      

班    级:                

学生姓名:  

指导教师: 

成    绩:                 

          

日期:20##年12月

目录

1.项目背景     3

2.系统功能概述     3

目标分析... 3

系统配置... 4

硬件配置... 4

系统开发平台... 4

3.数据仓库的方案设计     4

主题... 4

概念模型... 4

逻辑模型... 7

物理模型... 8

元数据模型... 9

4.系统分析与设计     13

1)模块划分... 13

2) 数据库设计... 16

5.数据挖掘设计     17

6.报表设计     18

7.课程设计心得体会     20


1.项目背景

我国是一个拥有五千年历史的国家来说,自古就是一个礼仪之邦,文化之邦,书籍的种类和数量更是多如繁星,所以,历史上有许多的关于书籍多的记载和比喻,如“汗牛充栋”。恩格斯曾经说过“书是人类进步的阶梯”,随着人们生活水平的逐步提高,人们已经不再满足于物质生活的享受,而更多的满足于精神文化生活的享受。但是就我国的现状来说,同发达国家的图书馆相比,我国图书馆的管理存在着很大的问题。图书馆中往往有着许多的资源不能很好的利用,对于我国一个发展中的国家来说,这是资源的重大浪费!而且在图书馆中人们往往找不到自己需要的资源或是资源被他人所占用。所以,图书馆应该建立自己的数据仓库,并且对其进行必要的数据挖掘,更好的在有中国特色的社会主义中发挥更好的作用,更好的服务人民!

2.系统功能概述

目标分析

    对于图书馆的读者信息管理(包括读者ID,姓名,性别,专业ID,证件号码,累计借阅情况和备注);书籍信息管理(包括书籍的编号,名称,分类,存放的位置,作者,出版社,数量,破损程度,价格,出版时间 );图书的借阅信息管理(包括图书编号,借阅姓名,图书名称,借书日期,还书日期 ,备注 ,是否归还)等信息的管理。提高经营管理的最重要的保证就是信息技术。图书馆要想在经济的效益取得丰厚的回报,就必须对书籍的的情况,读者的借阅情况有一个深入的分析和了解,建立一个统一的数据库,实施有效地监控,对读者的爱好和需要的数据进行分析,进行必要的挖掘。最后提高读者的满意度!

所以,据该图书馆的具体情况,研制开发了"图书馆管理系统",系统的主要功能设计有:

(1)读者的信息管理程序设计:读者ID,姓名,性别,专业ID,证件号码,累计借阅情况和备注等信息的录入,修改,删除,查询。

(2) 图书信息程序设计:图书的编号,名称,分类,作者,出版社,存放的位置,数量,破损程度,价格,出版时间等信息的录入,修改,删除,查询。

(3) 图书的借阅信息管理设计:

1)借还书管理:主要负责日常的借书登记、还书登记,和逾期未还图书的催还工作。

2)检索查询:按照各种组合条件对图书借阅情况查询,也可以进行模糊查询。

3)借书统计:统计各类书借阅情况,借阅次数;统计个人借书情况,打印日常报表。

4)定期整理图书借阅信息:将还书情况总结整理后彻底删除。

此外,图书管理人员还要定期做整理图书资料的全部图书清单、分类印图书清单、借阅清单以及整理填写各种报表等工作。

系统配置

硬件配置

PC一台。

系统开发平台

操作系统:Microsoft Windows Server 20## Enterprise Edition

工具软件:Microsoft SQL Server 20##

                Microsoft Visual Studio 20##

                Microsoft Office 20## Excel Access

3.数据仓库的方案设计

主题

主题是一个抽象的概念,是在高层次上将企业信息系统中的数据综合、归类后进行分析利用的抽象,《图书馆管理系统》的主题选取有如下五个方面:读者信息、图书信息、存放区域,分类信息和专业表,从这些主题方面来分析《图书馆管理系统》。

概念模型:

确定在数据仓库中,怎样的粒度数据才能满足管理人员对数据仓库图书馆经营管理策划分析的需要。

图书馆经营管理主题中,数据源来自图书馆登记记录的计算机上的每个读者的数据。分析旅馆图书馆领导管理人员通过哪些角度,即需要通过哪些维度来考察、选择经营方案。一般情况下,在确定图书馆经营策划时,图书馆管理人员需要通过分类信息、读者信息、存放区域、图书信息和专业表五个维度对图书的借阅情况方案进行分析,通过业绩,使管理人员更了解图书借阅方案的可用性和效果。

1. 读者信息维

图书馆的读者信息维度可以包含读者ID、姓名、性别、专业ID、证件号码、累计借阅次数及备注等内容。在读者信息维中的累计借阅次数情况是由图书的编号以及旅客的专业ID共同实现的要将二者加入到图书借阅情况中。在数据仓库的应用中有时需要对读者的专业不同来分类,进行图书类型的选择,分析哪个专业的学生选择哪类图书的频率高,对其相应的选择图书的存放的区域。

2.存放区域维

通过设置图书存放区域的类别:A区、B区、C区、D区和E区,这五个区域按照书柜距离图书馆入口的距离划分,A区距离图入口最近,比较便于进入图书馆的读者浏览,因此增大了图书被借走的几率,。根据图书的受欢迎程度的不同,有利于读者们的更加方便自由的选择,同时也为图书馆盈利带来了极大的好处。存放区域维设置有:区域ID、区域名、备注,这些字段的设置都为图书馆的管理带来了极大的方便。

3.图书信息维

图书馆的图书信息维包括:图书的编号、名称、分类、存放的位置、出版社、作者、数量、破损程度、价格、出版时间等数据的信息。图书馆管理人员通过对图书的时时状态的变化,预测读者的行为,并对未来的发展做出预测,同时也可以改变图书馆藏书的布局,比如图书数量,图书的摆放位置等,以适应读者不断变化的需要。

4. 分类信息维

分类信息维中存储分类代码和分类信息。

分类信息的内容由管理员设定,该图书馆中包含15类图书,各类图书摆放在特定的区域,分类相当于一种那个索引,将同一类别的书籍聚集到一起并放在相同位置。分类信息直接引导读者寻找书籍的位置,对读者借书有很大的影响,一个详细准确的图书分类是每一个图书馆所必须的。

5.专业维

专业维中存放着所有的专业名称和信息,是所有读者的所属类别,与读者信息维相关联。专业维作为分析图书受欢迎度的条件之一,对分析图书的受欢迎度

逻辑模型:

图书馆数据仓库的逻辑模型的研究是对概念模型的进一步细化,是将概念模型过渡到人脑的一种抽象。图书馆管理的需求主要针对图书的管理和读者选择的图书进行预测,依据这两方面内容来帮助图书馆高层管理者有依据的预测图书馆未来的书籍构造,同时也方便大多数读者的查找需要。

读者在进入图书馆后,首先要寻找自己想要的书籍,此时就需要根据借助馆内各个位置所标识的图书分类来确定图书位置,在找到图书所在的分类后就能确定图书位置,然后浏览书名,出版社及作者,破损程度,价格,页数版次等信息后,确定次数是否对自己有价值,若需要这本书,就去图书馆管理员处办理借书手续,将借书信息如书名、借书人、借书时间等登记在数据库中。

物理模型:

在数据仓库的物理设计中,主要解决数据的存储结构、数据的索引策略、数据的存储策略、存储分配优化等问题。物理设计的主要目的有两个,一是提高性能,二是更好地管理存储的数据。访问的频率、数据容量、选择的RDBMS支持的特性和存储介质的配置都会影响物理设计的最终结果。

(1)确定数据的存储结构

并行存储结构——RAID(Redundant Array of Inexpensive Disk,廉价冗余磁盘阵列)。

·RAID

·RAID1级。

·RAID2级。

·RAID3级。

·RAID4级。

·RAID5级。

(2)位图索引

(3)数据仓库物理模型的优化问题

1).合并表:几个表的记录分散存放在几个物理块中时,多个表的存取和连接操作的代价会很大。

2).建立数据序列:按照某一固定的顺序访问并处理一组数据记录。将数据按照处理顺序存放到连续的物理块中,形成数据序列。

3).引入冗余:一些表的某些属性可能在许多地方都要用到,将这些属性复制到多个主题中,可以减少处理时存取表的个数。

4).表的物理分割:每个主题中的各个属性存取频率是不同的。将一张表按各属性被存取的频率分成两个或多个表,将具有相似访问频率的数据组织在一起。

5).生成派出数据:在原始数据的基础上进行总结或计算,生成派出数据,可以在应用中直接使用这些派出数据,减少I/O次数,免去计算或汇总步骤,在更高级别上建立了公用数据源,避免了不同用户重复计算可能产生的偏差。

元数据模型:

元数据分为两种一种是静态元数据,另一种是动态元数据。

1.静态元数据:

1.1图书信息:图书编号,图书名称,出版社,作者,出版时间,页数,价格。

1.2图书分类:分类编号,分类名称

1.3图书存放区域:区域编号,区域名称

2.动态元数据:

2.1图书借出次数:图书的借出次数,体现受欢迎程度。

2.2 图书存放区域:图书的存放位置,可以按照决策改变。

(1)图书管理元数据

(2)图书管理事实元数据

(3)数据成员元数据

4.系统分析与设计

1)模块划分:

《图书馆管理系统》共分为三个主要模块:读者信息管理,图书信息管理,图书借阅信息管理,每个模块的具体内容如下:

读者信息管理     

图书馆信息管理系统中,读者是图书馆的核心,一个图书馆的设置要合理,这样才能够满足读者们的需求。同时,也要根据读者的需求和图书的借阅程度以及图书馆的图书的借阅的程度来制定图书馆馆的图书的存放的位置。由于不同的专业的学生,以及学生对图书的喜爱的不同,则可以分析挖掘出图书的受欢迎的程度不同,作为图书馆的管理人员,要充分认识到这一点,根据读者们对图书欢迎程度不同而制定出存放的位置,这样才能增加读者的满意度,提高图书馆的管理效率。因此,对图书馆读者信息的良好管理,则有利于图书馆整体的经营水平的提高,也同时为图书馆馆带来了巨大的经济利润。具体设计步骤如下:

1) 读者信息登记

用于读者自身信息(包括读者ID,姓名,性别,专业ID,证件号码,累计借阅情况和备注)及借阅登记工作。

2) 读者信息注销

用于读者注销图书卡及会员身份。

3) 读者信息结算

用于管理人员的结算工作, 记录读者的还书情况。若有欠书, 则打印欠书单及开出必要的罚金。

4) 查询读者

可按读者编号或读者名称查询读者的详细资料, 也可查询指定时间段的所有读者的借阅图书信息。

图书信息管理

图书信息管理工作包括:图书入库、图书的存放地点、图书的自身信息、图书出库贯穿了一本图书从进入图书馆馆到离开图书馆馆的全部过程。这使各个模块既相互关联, 又相互独立。在每一个模块中, 又有不同的操作, 下面则分别详细叙述。

1.图书入库

一个图书馆要想有一个好的经营模式, 那么,它必须有不断的大量的新的图书。为了不使图书馆蒙受损失,新的图书入库前都要做一个详细的记录, 确定每本图书的编号,如何有更好的效益,就需要进行深入的分析和数据挖掘,这样可以选择读者需要的图书的名称和数量,为图书馆节省大量的资金,提高图书馆的效率。

2.图书的存放地点

将图书馆的书籍划分为几个区域,对不同的区域放置不同类的书籍。把经常被读者借阅的图书放在更方便的地方,可以方便读者,进而提高读者的满意度。对每一类的图书都必须摆放在统一的地方,对图书进行必要的管理。这样可以对图书馆的图书有一个全面的了解。

3.图书的自身信息

在图书的入库时, 需要对图书的自身信息进行全面细致的记录。图书的自身信息的记录包括图书的编号,名称,分类,作者,出版社,存放的位置,数量,破损程度,价格,出版时间等信息进行记录,录入系统的数据库。

4.图书出库

图书的出库信息可以说是图书馆的最重要的记录的信息,为了维护图书馆的利益,并且使图书馆获得最大的利益,对图书的出库信息信息的记录,可以说是对图书馆的计划及经营至关重要,它对于以后的数据挖掘及分析有着很大的作用,可以说是影响着图书馆的未来!

图书的借阅信息管理

1)借还书管理:主要负责日常的借书登记、还书登记,和逾期未还图书的催还工作。

2)检索查询:按照各种组合条件对图书借阅情况查询,也可以进行模糊查询。

3)借书统计:统计各类书借阅情况,借阅次数;统计个人借书情况,打印日常报表。

4)定期整理图书借阅信息:将还书情况总结整理后彻底删除。

此外,图书管理人员还要定期做整理图书资料的全部图书清单、分类印图书清单、借阅清单以及整理填写各种报表等工作。

   

2) 数据库设计:

首先,我们建了一个图书馆数据库,库中包含了7张数据表,表名及其功能分别是:

1.存放区域:将图书馆的图书分放在A、B、C、D、E五个区域。

2.读者借书:用于记录读者ID、姓名、专业ID及借书的详细情况。

3.读者信息:用来记录读者的基本信息,包括姓名,性别,专业ID,证件号码,累积的借阅次数及备注等信息。

4.分类信息:用来把图书馆的图书划为科学的分类。

5.图书管理:图书的编号,存放区域的ID,分类,读者的ID,借出的次数。

8.图书的信息:包括图书的编号,名称,分类,存放的区域,出版社,作者,价格,破损的程度,数量,出版的时间,页数,版次,入库的时间,借出次数,受欢迎的程度,附件,简介及登记人等信息。

9.专业表:用于记录学生专业。

其次,我们对数据库进行ETCL操作,将数据库转换成数据仓库:图书馆数据仓库中包含7个表,表名及期功能分别是:

1.读者借书:记录学生ID,姓名专业ID及借阅的图书的情况。

2.存放区域:进过数据分析之后,将受欢迎程度高的书籍放置在更为方便读者的地方。

3.读者信息:读者姓名,性别,专业ID,证件号码,累计的借阅的次数及备注等信息。

4.分类信息:为了更好的服务读者,对图书进行必要的分类。

5.图书管理:图书编号,存放区域ID,分类,读者ID,了解图书的借阅的情况,挖掘出图书的受欢迎的程度,摆放相应的位置。

6.图书信息:图书编号,名称,分类,存放的区域,数量,破损的程度,价格,页数,借出次数,受欢迎的程度,及附件。用于分析。

7.专业表:用于了解读者专业的情况。用于分析使用。

最后,由于选取图书编号,存放区域ID,分类ID,读者ID,所以,选用了图书管理为事实表,然后选用了四个维表进行分析,存放区域.、图书信息、分类信息、读者信息,采用了雪花型, 专业表为详细类别表,对读者信息进行详细描述。

5.数据挖掘设计:

5.1 挖掘主题

首先,要明确挖掘要求,包括挖掘要求及欲达到的目的。旅馆管理系统是根据输入房间类型预测销售总量,根据预测的数据,得到相关顾客的信息,使决策者及时作出决策并制定出一系列的方案。

5.2 数据预处理

(一)定义数据源

(1)创建数据准备区

创建图书馆数据库,数据准备区的创建可以利用SQL Server2005中的数据库创建与表创建工具实现。通过ETCL来抽取转换成图书馆数据仓库。

(2) Analysis Manager数据库的创建与数据源确定

定义图书信息为要挖掘的数据源,Analysis Server系统是一个管理多维数据集的有力工具,可以用来创建对数据仓库访问、分析多维数据集和知识发现的数据挖掘模型。

(二)建立多维数据集

(1)定义一个新的数据源视图

将数据库中的表具体抽取转换成图书管理表,读者信息表,存放区域表,图书信息表,分类信息表以及专业表。

(2)标识事实数据表和维度表

该项目中的事实表为图书管理,维表为图书信息表,读者信息表,存放区域表,分类信息表,,专业表详细类别表。

(3)创建多维数据集,选择合适的度量值。包括:

图书编号表示对图书的统。

存放区域ID表示图书馆的存放地点。

分类ID表示图书馆的图书的具体的分类。

读者ID表示对读者的记录。

5.3 DM算法选择

1)类的选择

类可以有三种选择:关联规则、分类法和聚类法,此软件中选择分类法。

2)算法的选择

采用决策树算法。

5.4 DM

定义合适的挖掘参数

将图书信息表中的图书分类、图书存放区域、图书页数、图书价格等作为输入列,对图书的受欢迎程度进行预测,

将图书信息表中的读者的节约信息作为输入列,对图书的借阅的受欢迎的程度进行预测,使我们可以通过这个简单的决策树来对我们的图书馆的建设和购书情况的具体的操作并且根据受欢迎的程度设计图书的摆放的位置。

图书的摆放的位置包括A区,B区,C区,D区,E区。

可预测列范围比较广,包括图书的受欢迎的程度。

5.5 结果展示

                                   图5-1

5.6 评价

通过这个简单的决策树,我们可以得到算法:

IF存放区域=“A区”THEN AND IF 分类=“计算机”受欢迎程度=“高”

IF存放区域=“A区”THEN AND IF 分类=“不等于计算机”受欢迎程度=“中”

IF存放区域=“不等于A区”AND IF 存放区域=“C区”THEN 受欢迎程度=“中、低”

IF存放区域=“不等于A区”AND IF 存放区域=“不等于C区”THEN 受欢迎程度=“低”

测试属性是根据统计信息来进行选择的即(信息增益值),通过测试属性来建立了决策树,我们又采用了钻取技术,来对己有的决策树进行分析。如图5-1所示:

6.报表设计:

报表主要是从图书的存放区域角度,图书分类角度进行分析,更详细可从图书价格,图书数量等角度分析,报表内容更加复杂。得出的报告清晰的显示出哪个区域哪个类别图书借出的多少,以及图书受欢迎的程度,再根据这些数据决定图书的摆放位置和摆放方式等。似的图书的摆放设计更加人性化。

以上饼图展示出图书馆书籍中受欢迎程度为高、中、低的所属类别,以及每个类别中图书的受欢迎程度,用户可以从图中分析出读者对图书馆中各类图书的喜爱程度,并帮助管理者对图书馆的图书布局,图书构成作出决策达到便于管理和节约成本的目的。

7.课程设计心得体会

通过此次课程设计,使我们更加扎实的掌握了有关数据仓库与数据挖掘方面的知识,在设计过程中虽然遇到了一些问题,但经过一次又一次的思考,一遍又一遍的检查终于找出了原因所在,也暴露出了前期我们在这方面的知识欠缺和经验不足。实践出真知,通过亲自动手制作,使我们掌握的知识不再是纸上谈兵。

过而能改,善莫大焉。在课程设计过程中,我们不断发现错误,不断改正,不断领悟,不断获取。最终的检测调试环节,本身就是在践行“过而能改,善莫大焉”的知行观。这次课程设计终于顺利完成了,在设计中遇到了很多问题,最后在老师的指导下,终于游逆而解。在今后社会的发展和学习实践过程中,一定要不懈努力,不能遇到问题就想到要退缩,一定要不厌其烦的发现问题所在,然后一一进行解决,只有这样,才能成功的做成想做的事,才能在今后的道路上披荆斩棘,而不是知难而退,那样永远不可能收获成功,收获喜悦,也永远不可能得到社会及他人对你的认可!

相关推荐