数据挖掘课程设计 (规范化) 081002102 陈浩

数据变换

一．设计题目

数据变换：

1.最小-最大规范化

2.Z-score规范化

3.小数定标规范化

二．主要内容

1.平滑：去除数据中的噪声
2．聚集：数据汇总，数据立方体的构建，数据立方体的计算/物化(一个数据立方体在方体的最底层叫基本方体，基本方体就是已知存在的数据，对现有的数据按照不同维度进行汇总就可以得到不同层次的方体，所有的方体联合起来叫做一个方体的格，也叫数据立方体。数据立方体中所涉及到的计算就是汇总)
3．数据概化：沿概念分层向上汇总，数据立方体的不同的维之间可能存在着一个概念分层的关系
4．规范化：将数据按比例缩放，使这些数据落入到一个较小的特定的区间之内。方法有：
a.最小----最大规范化
b.Z-score规范化
c.小数定标规范化
5．属性的构造：通过现有属性构造新的属性，并添加到属性集中
三．基本思想

1.数据变换的基本思想：

通过将属性值按比例缩放，使之落入一个小的特定区间，对属性规范化。

四.算法的代码

import java.util.*;

publicclass apriori{

publicstaticvoid main(String[] args){

Scanner Scanner= new Scanner(System.in);

System.out.print("请输入需要规范化的数V:");

double v=Scanner.nextInt();

System.out.println("请选择规范化方式:\n1.最小-最大规范化\n2.z-score规范化\n3.小数定标规范化");

int pin=Scanner.nextInt();

switch(pin){

case 1:

System.out.print("请输入minA:");

double minA=Scanner.nextInt();

System.out.print("请输入maxA:");

double maxA=Scanner.nextInt();

System.out.print("请输入映射区间的上下界：");

double[]s;

s=newdouble[2];

for(int i=0;i<2;i++){

s[i]=Scanner.nextInt();

}

double v1=((v-minA)/(maxA-minA)*(s[1]-s[0])+s[0]);

System.out.print("A的值v规范化为："+v1);

break;

case 2:

System.out.print("请输入属性A基于A的均值：");

double meanA=Scanner.nextInt();

System.out.print("请输入属性A基于A的方差：");

double varianceA=Scanner.nextInt();

double v2=(v-meanA)/varianceA;

System.out.print("A的值v规范化为："+v2);

break;

case 3:

System.out.print("请输入v的长度多一位的能被10整除的数：");

double L=Scanner.nextInt();

double v3=v/L;

System.out.print("A的值v规范化为："+v3);

break;

}

五．运行结果

1.最小--最大规范化

2.z-score规范化

3.小数定标规范化

第二篇：数据挖掘课程设计

本科课程设计及实验

期末成绩评估系统的数据仓库和数据挖掘设计

课程名称：数据挖掘

课程编号： 08060116

学生姓名： cwl

学号： 2008052251

学院：信息科学技术学院

系：计算机科学系

专业：软件工程

指导教师： lb

教师单位：信息学院计算机系

开课时间： 20## ~ 20## 学年度第二学期

20##年 06月20日

第1章概述

1.1应用背景和问题的提出

在大学生活中，我们大学生在某种程度上还是比较重视自己的课程成绩的。而有一个期末最终成绩的评估系统，无疑对同学们而言是很有用的。在这个系统中，只需输入你估计的平时成绩以及表现和期末考试的得分，就可以预测出最终的成绩。而这个课程成绩的组成以及得出是怎么样的呢。这个最终的得分是受到什么影响呢?本论文就以上问题进行了探讨和挖掘。

1.2设计内容的介绍

本课程设计主要是探讨和研究在老师给定成绩时考虑的因素，以及这些因素所占的比例。数据仓库为一份记录着600个同学的得分情况的数据，数据挖掘则采用决策树探究出影响结婚年龄的因素。

第2章数据仓库设计

2.1概念模型设计

数据仓库里面有一个实体，也就是成绩score。成绩的决定因素有performance也就平时表现情况，即根据其在课堂上的活跃程度以及认真听课的情况来给的分，还有averscore就是同学平时的作业得分以及平时测试或者期中测试的平均成绩，以及期末考试的成绩lasttest。

2.2逻辑模型设计

本数据仓库只有一个表，逻辑模型设计如下：

2.3物理模型设计

在数据仓库的物理设计中，主要解决数据的存储结构、数据的索引策略、数据的存储策略、存储分配优化等问题。物理设计的主要目的有两个，一是提高性能，二是更好地管理存储的数据。访问的频率、数据容量、选择的RDBMS支持的特性和存储介质的配置都会影响物理设计的最终结果。在本数据挖掘中，数据的索引策略采取的并不是位图索引而是按列索引

2.4 OLAP模型设计

在本设计中由于案例考虑的并不复杂，所以OLAP模型设计也就比较的简单。

下面的数据是保存在Excel中的。大概的模型设计也就如下图所示。