西电课程设计 数据挖掘研究的现状及发展

课程设计报告

西电标准标志

    设计题目:    数据挖掘在生物数据分析中的应用*

学    院:           电子工程学院              *

专    业:           电子信息工程              *                   

班    级:    021013       学号:   02101263   *  

学生姓名:                               *                         

电子邮件:           xuanh_w@sina.com          *               

时   间:              20139              *                    

成   绩:                                      *                                   

指导教师:                刘静                 *                          

西电

西   安  电  子  科  技  大  学

电 子 工 程 学 院

课 程 设 计(报告)任 务 书

学生姓名             指导教师              职称                      .                 

学生学号                           专业                              .                                                              

题目              数据挖掘在生物数据分析中的应用             .                                                

任务与要求

开始日期     年   月    日  完成日期      年    月     日

课程设计所在单位                         年    月    日

目录

摘要.. 3

一、数据挖掘的起源.. 4

二、数据挖掘的研究内容.. 4

2.1  空间数据挖掘.. 5

2.2  多媒体数据挖掘.. 5

2.3  时序数据挖掘.. 6

2.4   web数据挖掘.. 6

2.5  不确定数据挖掘.. 6

三、数据挖掘的主要任务与研究现状.. 7

四、数据挖掘的发展趋势.. 8

五、生物数据分析的基本任务.. 9

六、数据挖掘在生物数据分析中的应用.. 9

1、异构、分布式基因数据库的语义集成.. 9

2、生物数据中的相似性搜索和比较.. 10

3、关联分析和路径分析.. 10

4、基于频繁模式的聚类分析.. 10

5、可视化数据挖掘.. 11

6、保护隐私的数据挖掘.. 11

七、数据分析在生物数据分析任务中的应用现状.. 12

八、数据挖掘技术在生物信息的应用展望.. 13

结束语.. 14

参考文献.. 15

摘要

数据挖掘是一个崭新的计算机应用领域 ,而生物信息学是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。本文综述了数据挖掘技术的起源、发展、研究内容、主要任务及研究现状 ,介绍了生物信息学的内涵和新的应用技术 ,以及数据挖掘技术对生物信息挖掘应用的途径和数据挖掘在生物数据分析中的应用现状,在生物数据分析的应用上重点讲叙了数据挖掘在DNA序列、基因表达数据分析中的应用。

关键字:数据挖掘、生物数据分析、DNA序列

一、数据挖掘的起源

  数据是信息的载体,是描述客观事物的数、字符、以及所有能输入到计算机中,被计算机程序识别和处理的符号的集合。计算机硬件技术的稳定进步为人类提供了大量的数据收集设备和存储介质。数据库技术的成熟和普及已使人类积累的数据量正在以指数方式增长,我们处在一个被信息淹没却饥渴于知识的时代。在这个信息膨胀的时代,我们需要一门技术来提取我们需要的,过滤暂时无用的数据来保证我们的生活、工作和学习的效率。于是数据挖掘就在这个大背景下产生了。

       数据挖掘出现于20 世纪8 0 年代后期,是数据库研究中一个很有应用价值的新领域,是一门交叉性学科,合了人工智能数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标 [1] 。

       尽管通常数据挖掘应用于数据分析,但是像人工智能一样,它也是一个具有丰富含义的词汇,可用于不同的领域。 它与数据库知识发现的关系是:数据库知识发现是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程;而数据挖掘是数据库知识发现通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。事实上,在现今的文献中,这两个术语经常不加区分的使用。

二、数据挖掘的研究内容

数据挖掘涉及的学科领域和方法很多,有不同的分类分支。根据掘任务可以分为:分类或预测模型发现、数据总结与聚类发现、关联规则发现、序列模式发现、相似模式发现、混沌模式发现、依赖关系或依赖模型发现、异常和趋势发现等;根据挖掘对象可以分为:关系型数据库挖掘、面向对象数据库挖掘、空间数据库挖掘、时态数据库挖掘、文本数据源挖掘、多媒体数据库挖掘、异质数据挖掘、遗产数据挖掘、Web数据挖掘等;根据挖掘方法可以分为:机器学习方法、统计方法、聚类分析方法、神经网络方法、遗传算法方法、数据库方法、近似推理和不确定性推理方法、基于证据理论和元模式的方法、现代数学分析方法、粗糙集方法和集成方法等;根据数据挖掘所发现的知识可以分为:挖掘广义型知识、挖掘差异型知识、挖掘关联型知识、挖掘预测型知识、挖掘异常型知识、挖掘不确定性知识等 [2] 。

2.1  空间数据挖掘

空间数据是从遥感、地理信息系统(GIS)、多媒体系统、医学和卫星图像等多种应用中收集而来,收集到_的数据远远超过了人脑的分析能力。空间数据挖掘技术按功能划分可分为三类:描述、解释、预测。

描述性的模型将空间现象的分布特征化,如空问聚类;解释性的模型用于处理空间关系,如处理一个空间对象和影响其空问分布的因素之间的关系。

预测型的模型用来根据给定的一些属性预测某些属性,如分类模型和回归模型等。目前,主要在空间数据挖掘的体系结构和挖掘过程做了大量研究,包括面向对象的空间数据库的数据挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类挖掘、挖掘空间数据的偏离和演变规则、基于多专题地图的挖掘、交叉概化、基于时空数据的概化、并行数据挖掘、统计分析与数据挖掘的协同和遥感影像的挖掘等,主要采用了基于统计学和概率论、集合论、机器学习、仿生物学、地球信息学的研究方法。

2.2  多媒体数据挖掘

多媒体数据,包括图形、图像、文本、文档、超文本、声音、视频和音频数据等,数据类型复杂。随着信息技术的进步,人们所接触的数据形式越来越丰富,多媒体数据的大量涌现,形成了很多海量的多媒体数据库。这些数据大多是非结构化数据、异构数据,特征向量通常是数十维甚至数百维,转化为结构数据和降维成了多媒体数据挖掘的关键技术。有研究者提出了多媒体数据挖掘的系统原型。MDMP,将多媒体数据的建模表示、存储和检索等多媒体数据库技术与数据挖掘技术有机地结合在一起,采用多媒体图像数据的相似性搜索、多维分析、关联规则挖掘、分类与聚类分析等挖掘方法,广泛地应用于医学影像诊断分析、卫星图片分析、地下矿藏预测等各种领域。

2.3  时序数据挖掘

时序数据挖掘通过研究信息的时问特性,深入洞悉事物进化的机制,揭示其内在规律(如波动的周期、振幅、趋势的种类等),成为获得知识的有效途径。关键问题是要是寻找一种合适的序列表示方式,基于点距离和关键点是常用的算法,但都不能完整表示出序列的动态属性。时序数据挖掘的主要技术有趋势分析和相似搜索,在宏观的经济预测、市场营销、客流量分析、太阳黑子数、月降水量、河流流量、股票价格波动等众多领域得到了应用。国内对于时序数据的研究比较少,使用的方法和技术主要有人工神经网络技术,利用它预测和处理混沌观测时间序列能达到较高的精度。此外还有通过对时序数据进行离散傅立叶变换将其从时域空间变换到频域空间,将时序数据映射为多维空问的点,在此基础上,有学者提出一种新的基于距离的离群数据挖掘算法。

2.4   web数据挖掘

随着Intemet/Web技术的快速普及和迅猛发展,使各种信息可以在网络上获得,但是它是巨大的、分布广泛的、全球性多样的和动态变化的。面对如此大量的Web数据,如何在这个全球最大的数据集合中发现有用信息成为Web数据挖掘研究的热点。当前,Web数据挖掘可分为四类,即Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘。

2.5  不确定数据挖掘

传统的数据挖掘技术处理位置已经被精确给定的对象,然而在实际应用领域,由于测量仪器的局限性会造成测量值的不准确,数据的不确定性是不可避免的。数据的不确定性主要可以分为存在的不确定性和值的不确定性两大类,存在的不确定性指的是不确定对象或元组的存在与否,如关系数据库的某个元组和一个概率相关联表示这个元组存在的可信度,值的不确定指的是一个元组的存在是确定的,但它的值是不确定的。现在对不确定数据挖掘的研究已成为热点,在聚类分析、关联规则、空间挖掘等方面都有突破,经典的K—means算法扩展到了UK—means算法,Apriori算法扩展到了UApriori算法等[3]。

数据挖掘的整个过程可以描述成四个步骤:

1、问题定义

"清晰地定义出业务问题,认清数据挖掘的目的"是数据挖掘的重要一步。在问题定义过程中,数据挖掘人员必须和领域专家紧密协作,明确实际工作对数据挖掘的要求,并通过各种算法的比较,选择合适的算法进行挖掘。

2、数据准备

1)数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。

2)数据的预处理:研究数据的质量,进行数据再加工,包括检查数据的完整性及数据的一致性、去除噪声,填补丢失的域,删除无效数据,为进一步的分析作准备,并确定将要进行的挖掘操作的类型。

3)数据的转换:将数据转换成一个分析模型,从而减少数据维数或降维,即从初始特征中找出真正有用的特征,以减少数据挖掘时要考虑的特征或变量个数。这个分析模型是针对挖掘算法建立的,而建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

3、数据挖掘

根据数据功能的类型和数据的特点选择相应的算法(如神经元网络、决策树、聚类分析技术、关联发现和序列发现技术),在净化和转换过的数据集上进行数据挖掘,搜索或产生一个特定的感兴趣的模式或一个特定的数据集。

4、结果分析

该步骤是对数据挖掘发现的模式或数据集进行解释和评价,生成一个相对最优模型,并对此模型用业务语言加以解释,把有用的知识呈现给用户。但数据挖掘阶段发现出的模式也可能不满足用户要求,这时需要整个发现过程回退到前一阶段,如重新选取数据、设定新的参数、换用一种挖掘算法等。由此可见,数据挖掘过程是多个步骤相互连接、反复进行人机交互的过程。

三、数据挖掘的主要任务与研究现状

在国外,数据挖掘技术已被广泛的应用于各个域,其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功应用之一;生物学研究中用数据挖掘技术对DNA进行分析;利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析;对银行或保险公司经常发生的诈骗行为进行预测;IBM公司开发的AS(AdvancedScout)系统针对 NBA的比赛数据,帮助教练优化战术组合等。在学术研究上,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了数据挖掘专题或专刊。与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持数据挖掘领域的研究项目,目前,国内的许多科研单位和高等院校竞相开展数据挖掘和知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。例如,复旦大学施伯乐教授领导开发了数据挖掘工具集AMINER;北京大学智能科学系的唐世渭和杨冬青教授领导开发了基于空间数据挖掘的客户分析系统模型CASDM。此外,清华大学周立柱教授领导的数据挖掘研究小组,四川大学唐常杰教授领导的针对时间序列方面的数据挖掘研究小组,中国科技大学蔡庆生教授领导的针对关联规则的研究小组,复旦大学朱扬勇教授领导的数据挖掘工作组,云南大学王丽珍教授带领的针对不确定数据挖掘的研究小组等,都取得了许多重要的研究成果 [4] 。在数据挖掘算法研究方面,中科院计算所史忠值研究员、清华大学石纯一、陆玉昌教授、武汉大学李德仁院士、北京科技大学杨炳儒教授、复旦大学周傲英教授等都取得了许多重要的研究成果。

四、数据挖掘的发展趋势

       数据挖掘人物和数据挖掘方法的多样性对数据挖掘提出了许多挑战性的研究问题,在将来会形成更大的浪潮,研究焦点可能会集中到一下几个方面:研究专用于知识发现的数据挖掘语言,走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络与分布式环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据;探索可伸缩的和可交互的数据挖掘方法,全面提高数据挖掘过程中的总效率;扩大数据挖掘应用范围,如金融分析、生物医药研制、犯罪侦查等;开发适应多数据类型、容噪的挖掘方法,以解决异质数据集的数据挖掘问题。动态数据和只是的数据挖掘等 [5] 。

五、生物数据分析的基本任务

       生物信息学是生命科学、计算机科学、信息科学和数学等学科交汇融合所形成的一门交叉学科 [6]。 D N A 序列数据是生物信息学的主要研究对象之一。通过分析D N A 序列, 科学家不仅能够解已有的序列,而且能够更好地研究新的序列及其功能, 解读序列在生物体中充当的角色,进而理解生命本质。当前,对DNA序列数据研究的方法主要是从D N A 序列数据出发,分析序列中所包含的结构与功能的生物信息,所涉及的研究主题包括基因组注释、编码区和非编码区识别、基因序列功能预测等等。

  随着生物信息、分子生物学实验技术的发展,大量的各类生物数据不断产生。如何有效地分析这些数据并发现规律以指导生物学研究和实验,是当今生物信息学研究的重要内容。

六、数据挖掘在生物数据分析中的应用

生物信息学是一门新兴的交叉学科。生物信息学是伴随基因组研究而产生的 ,它的研究内容紧随着基因组研究而发展。广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。这一定义包括了两层含义 ,一是对海量数据的收集、整理与服务 ,即管好这些数据 ;另一个是从中发现新的规律 ,即用好这些数据。具体地说 ,生物信息学是把基因组 DNA序列信息分析作为源头 ,找到基因组序列中代表蛋白质和 RNA基因的编码区 ;同时 ,阐明基因组中大量存在的非编码区的信息实质 ,破译隐藏在 DNA序列中的遗传语言规律 ;在此基础上 ,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据 ,从而认识代谢、发育、分化、进化的规律 。数据挖掘在生物数据分析中的应用主要在以下几个方面 [7]:

1、异构、分布式基因数据库的语义集成

由于广泛多样的 DNA数据高度分散、无控的生成与使用,对这种异构和广泛分布的基因数据库的语义集成就成为一项重要任务,以便于对 DNA数据库进行系统而协同的分析。这促进了集成式数据仓库和分布式联邦数据库的开发,用于存储和管理原始的和导出的基因数据。数据挖掘中的数据清理和数据集成方法,将有助于基因数据集成和用于基因数据分析的数据仓库的构造。

2、生物数据中的相似性搜索和比较

生物数据中一个重要的研究热点是相似性搜索和序列、结构的比较。疾病组织和健康组织的基因表达是不同的,通过比较识别出两类基因之间的关键性差别有助于肿瘤分型、肿瘤分类、药物靶位识别等许多方面的研究。首先检索每类组织内的基因序列,发现并比较不同组织类型内频繁发生的模式。一般认为,疾病组织内频繁发生的序列是这种疾病的遗传因素,健康组织内频繁发生的模式表明了肌体抵抗这种疾病的机制。相似性分析可以用在蛋白质数据和基因表达数据的相似模式查找上。由于生物数据包含大量的噪音,找到一种能在噪音环境中有效的发现序列或结构模式的挖掘法是非常有用的。

3、关联分析和路径分析

目前,许多研究关注的是一个基因与另一个基因的比较。然而,大部分疾病不是由单个基因异常引起的,是一组相关的基因共同作用的结果。关联分析方法可用于帮助确定在目标样本中同时出现的基因种类。关联分析有助于功能基因组的发现和基因调控网的建立。不仅引起一种疾病的基因可能不止一个,而且在疾病的不同阶段可能是不同的基因在起作用。如果能找到疾病发展的不同阶段遗传因素序列,就可能开发出针对疾病不同阶段的治疗药物,从而取得更为有效的治疗效果。在遗传研究中路径分析会起到重要作用。

4、基于频繁模式的聚类分析

目前,大多数聚类算法是基于全部或部分维上的距离来定义对象间的相似性的,包括欧几里德距离、曼哈坦距离和夹角余弦等。但是,距离函数在描述生物数据间的相似性上,并不是非常合适。一些生物数据(如基因表达谱)用距离函数度量相差很远,却存在着非常强的模式相关性。数据时,将有可能与保护数据库的安全性和保护私人数据的目标相抵触。例如:根据某用户的信用信息可以了解许多有关该用户的其他个人信息。当客户感觉到他们的个人信息被非授权使用时,他们会感到个人隐私受到了严重侵害。因此在什么情况下数据挖掘将导致对私有数据造成侵犯和采用何种措施来防止敏感信息的泄漏的研究显得非常重要。为了防止数据被滥用,对于数据的收集、使用、处理和发布,以及数据的精确度和数据安全性等都有一定的要求。一旦应用了在安全和隐私上有特殊限制的数据,那么相应的数据挖掘在安全和隐私上也就继承了同样的限制。

5、可视化数据挖掘

大量复杂的全基因组数据引发了数据可视化描述工具的发展,在生物信息学中主要见于: (1)进行序列操作和分析的图形用户界面,通过便捷的桌面工具进行数据的浏览和与数据间的互动;(2) 专门的可视技术,灵活运用图形、颜色和面积等方法对大量的数据进行描述 ,最大限度地利用人类的感官对特征和模式进行挑选;(3) 可视编程,属于特殊的、高级的、领域专有的计算机语言中的图形描述算法。基因和蛋白的序列模式和结构是非常复杂的,可以把它们以图、树或链等可视化的形式表示出来。可视化后的结构和模式具有直观、清晰的特点,有助于模式理解、知识发现和交互性的数据挖掘。可视化和可视化数据挖掘在生物数据的挖掘中扮演了一个重要的角色。下表中列出了几种常用的可视化基因表达谱管理与分析软件。目前,Eisen 编写的谱系聚类程序Cluster 和TreeView因良好的表 现形式和可从网上免费下载等原因而获得普遍使用。

表 1几种常用的可视化基因表达谱管理与分析软件[8]

6、保护隐私的数据挖掘

虽然信息交换很重要,某些医院和研究机构出于保护病人隐私或其他的缘故,不愿意完全暴露所有的生物数据。因此,找到一种有效的保护隐私的数据挖掘方法,在保护隐私的基础上获得尽可能多的信息,是非常有现实意义的。现在,已经有一些研究者开始从事这方面的研究。当可以在不同的角度和不同的层次上看到数据库中的软件名称主要功能相关信息。

七、数据分析在生物数据分析任务中的应用现状

生物信息学是一门新兴的交叉学科。生物信息学是伴随基因组研究而产生的 ,它的研究内容紧随着基因组研究而发展。广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。这一定义包括了两层含义 ,一是对海量数据的收集、整理与服务 ,即管好这些数据 ;另一个是从中发现新的规律 ,即用好这些数据。具体地说 ,生物信息学是把基因组 DNA序列信息分析作为源头 ,找到基因组序列中代表蛋白质和 RNA基因的编码区 ;同时 ,阐明基因组中大量存在的非编码区的信息实质 ,破译隐藏在 DNA序列中的遗传语言规律 ;在此基础上 ,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据 ,从而认识代谢、发育、分化、进化的规律 。

生物信息学自诞生以来 ,经历了 3个阶段 :1)基因年代的生物信息学 ,主要是序列分析、数据库的查询、计算机操作和 PC的应用 ;2)基因组年代的生物信息学 ,主要是基因的寻找、数据与数据之间的比较、网络相互界面 ;3)后基因组年代的生物信息学 ,主要是数据的挖掘、表达、数据多样性的分析、相互交叉数据分布的总结与分析。其研究的内容不仅包括基因的查寻和同源性分析 ,而且进一步到基因和基因组的功能分析 ,即所谓的功能基因组研究。其具体内容表现在 :a)将已知基因的序列与功能联系在一起研究 ;b)从以常规克隆为基础的基因分离转向以序列分析和功能分析为基础的基因分离 ;c)从单个基因致病机理的研究转向多个基因发病机理的研究 ;d)从组织与组织之间的比较来研究功能基因组和蛋白组。其目的就是为了能够对整个基因组进行分析和比较 ,对多元基因及相应蛋白间的功能和作用进行整体分析。如何有效地进行数据的采集、收集、整理、检索、分析 ,从中提取规律 ,上升为理论 ,以便 “读懂 ”基因组的遗传信息。后基因组时期的主要任务为数据挖掘 ,即从完全测序的基因组中预测功能。

       生物信息学的大量研究都集中在 DNA数据的分析上,这里重点探讨其应用。在D N A 序列分析中, 数据挖掘技术有着非常广阔的前景,对于提高数据处理能力、产生有价值的生物学知识起着重要作用。

自D N A 序列数据库建立以来,研究者开始采用统计学方法分析DNA 序列降,虽然这与数据挖掘技术在实现手段和研究范围上存在差异,但当它被写成计算机程序并用于大规模DNA 序列数据分析时,则成为DNA 序列数据挖掘技术的雏形。但是,这类方法所需的计算量相当大。 幸而,此时数据挖掘技术己有较大发展,于是人们将现有的挖掘方法直接用于D N A 序列分析阶段[9],这是一般化数据挖掘方法的应用阶段。但是,这些方法虽然在效率上有一定程度的提高,却并没有完全满足生物学家的需求,因为挖掘结果的可解释性和准确率可能偏离实际生物意义。因此,研究者提出应该结合DNA 序列特点及实际应用背景发展专门面向DNA 序列的数据挖掘方法,这标志着DNA 序列数据挖掘跨入第3 个阶段,并且这一领域的研究仍处于快速发展之中。

八、数据挖掘技术在生物信息的应用展望[10]

与已经发展了几十年的序列生物信息学相比,基因表达谱的生物信息学仅处于起步阶段,尽管应用了诸如聚类、分类、关联分析等许多方法,但仍有很多问题有待于进一步研究。如:每个物种的基因组所含的基因序列与基因数目相对固定,但这些基因的表达水平随着发育阶段不同或外部条件的变化而变化,如何根据这些基因表达水平的变化来构建在一定外部条件下这些基因的调控关系 (即调控网络 )模型等,特别是随着人类基因组工作草图与多种模式生物基因组测序的完成和基因芯片技术的广泛应用,人们面对的是海量的生物信息数据,如何发展有效的工具从这种包含序列结构和功能信息的数据海洋中确定与某一特定生命现象相关的基因及其功能,已成为后基因组时代国际上争夺的焦点,数据挖掘技术因其在大规模数据处理方面的卓越能力而在生物信息学领域具有良好的研究与应用前景。目前,生物信息学中的数据挖掘研究仍然处于起步阶段,有很多问题需要解决。弄清什么是当前生物信息中的热点问题,设计出适合生物数据分析的挖掘算法是非常重要的。如果我们在这生物信息数据的巨大积累和功能基因组学研究的关键时刻,充分发挥中国人综合分析的特长,并结合国内崛起的基因芯片技术,必将推动我国的功能基因组学研究,从而加速某些相关领域的发展,使我国在国际功能基因组学研究上,不再是 1/100的份额,而是更大。

生物学是生物信息学的核心和灵魂 ,生物信息学是在生命科学的研究中 ,以计算机为工具对生物信息进行储存、检索和分析的科学。数据挖掘是一个崭新的计算机应用领域 ,目前 ,它已成为对人类生活影响最大的几项 IT技术之一。随着数据挖掘技术发展的深入和相关领域知识的渗透 ,它将极大地促进信息对于人类社会进步所起的作用。数据挖掘技对生物信息挖掘应用起着越来越重要的作用。

结束语

         此次课程设计自己准备时间并不算充足,相关知识构架也不算完整,必然存在许多疏漏和不严谨之处,希望老师多加指点!

参考文献



[1]  数据挖掘 [DB/OL] http://zh.wikipedia.org/zh-cn/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98

[2]  毛国君,段立娟,王实等。数据挖掘原理与算法[M].北京:清华大学出版社,2005.

[3]  郑继刚,谢芳。多媒体图像挖掘的关联规则挖掘[J].红河学院学报,2009(5):44-47.

[4]  徐雪琪.基于统计视角的数据挖掘研究[D].杭州:浙江工商大学,2007.

[5]  张静.数据挖掘在生物信息中应用的现状及展望.[C]沈阳:沈阳化工学院出版社,2008(2):186-188 .

[6]  邓绪斌, 朱扬勇,ReDE: 一个基于正则表达式的生物数据抽取方法计算机研究与发展, 2005,42(12):2184-2191

[7]  武晓新,印莹,赵宇海。数据挖掘在基因表达数据分析中的应用[J].辽宁经济职业技术学院学报,2006(4):148-149.

[8]  武晓新,印莹,赵宇海。数据挖掘在基因表达数据分析中的应用[J].辽宁经济职业技术学院学报,2006(4):148-149.

[9] 熊赞,张锐,陈越,朱扬勇.生物序列数据库管理系统研究见: 黄德双, 刘海燕, 施蕴渝, 陈国良, 编.生物信息学中的智能计算理论与方法研究.合肥: 中国科学技术大学出版社, 20## .134-138.

[10]  张春霆 .生物信息学的现状与展望 [EB/OL]. http://tubic.tju.edu.cn/current% 20and% 20prospect.files/cur-rent%20and%20prospect. htm,2000.

相关推荐