数据挖掘实验报告模板

湖南工程学院数据挖掘 实验报告

第二篇：数据挖掘实验报告

机器学习与数据挖掘

学生姓名：

学号：6008

专业：计算机科学与技术

班级：计算机2084班

1实验内容

（1）在C4.5算法中数据集大小与精度之间的关系

（2）属性个数对该关系的影响

2实验思路

实验要求探究数据集大小与C4.5精度的关系以及数据属性个数对这个关系的影响。对于第一个问题来说，影响算法精度的因素很多，数据集大小只是其中的一个。在研究训练集对算法精度影响实验中要求固定其他影响因素，即在实验中分析训练集大小与C4.5精度的关系时，对训练集进行多次不同随机采样，采用同样的测试集测试模型精度并记录每次测试的结果，最后分析比较得出结论。在研究测试集对算法精度影响时，采用同样的训练集对测试集进行不同的抽样得到不同的测试集，然后进行测试并记录结果，对结果进行归纳总结得出结论。对于第二个问题，使用同一个数据集，采用带筛选器的分类器，对处理后的数据进行10重交叉验证，记录所得精度，修改筛选器的抽样比率，得到不同的数据集，重复实验，比较得最后的结论。

此次试验要求采用多组数据进行相同的测试，最后分析归纳得出结论。

3实验过程

对实验数据进行预处理，将数据中的数值型数据转变为离散型数据。使用weka.filters.unsupervised.attribute.Discretize将数据集中的数据离散化。选中Choose中的Discretize得到图2的界面进行参数设置attributeIndices设置的是想要离散化属性的标号，bins设置将属性离散为几个离散值。这里设置的是将第1,5,10个属性分别离散到三个数据段内。点击确定返回主页面并点击Apply完成离散化。

图1

3.1数据集大小与精度之间的关系

3.1.1训练集大小与C4.5算法精度之间的关系

以训练集au7_train.arff，实例个数1100，属性个数13为例进行实验过程：

（1）打开训练集au7_train.arff选择ReservoirSample筛选器，筛选器路径为weka.filters.unsupervised.instance.ReservoirSample对原训练集进行处理，对原训练数据集进行无监督的随机抽样，选中ReservoirSample进行参数设置得到图2，将sampleSize属性设置为100，点击确定返回主页面并点击Apply即抽取100个数据作为新的训练数据集。