生物信息学综述

生物信息学综述

院系:生命科学学院 专业:生态学 姓名:荆佩欣 学号:220140919960

生物信息学综述

摘要:生物信息学是综合运用生物学、数学、物理学、信息科学以及计算机科学等学科的理论方法而形成的交叉学科;生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学的前沿。本文主要阐述了生物信息学的起源、发展与研究内容,并对生物信息学的发展前景进行展望。 关键词:生物信息学;发展;研究内容;前景

生物信息学是在生命科学、计算机科学和数学的基础上逐步发展而形成的一门新兴交叉学科,是为理解各种数据的生物学意义,运用数学与计算机科学手段进行生物信息的收 集、加工、存储。传播。分析与解析的科学。生物信息学是当今最具发展前途的学科之一,它缘于近10年来生物学相关信息量的“革命性爆炸”,又得益于近10年来信息技术的“革命性发展”。生物信息学的出现极大地推动了分子生物学的发展。生物信息学已成为生物医学、农学、遗传学、细胞生物学等学科发展的强大推动力量,也是药物设、环境监测的重要组成部分。生物信息学在基因的功能发现,疾病基因诊断、蛋白质结构预测、基于结构的药物设计、药物合成和制药工业中起着极其重要的作用,生物信息学的应用大大加快了药物的研究开发进程。

一、 生物信息学的起源

生物信息学是80年代开始于人类基因组计划的启动,而兴起的一门边缘学科。随着生物科学和计算机科学的迅猛发展,由此而诞生的生物信息学逐渐发展成为一门独立的学科。其名字来源更早,生物信息学的概念是在19xx年美国田纳西州盖特林堡召开的“生物学中的信息理论研讨会”上产生的。并由林华安博士在19xx年正式为这一领域定下“生物信息学”这一称谓。生物信息学主要是一门运用生物学、数学、统计学、物理学、化学、信息科学以及计算机科学等诸多学科的理论方法研究生物学系统和生物学过程中信息流的综合系统科学,通过其独特的桥梁作用和整合作用 ,使人们能够从各生物学科众多分散的观测资料中,获得对生物学系统和生物学过程运作机制的理解,最终达到自由

应用于实践的目的。生物信息学的实质就是利用计算机科学和网络技术来解决生物学问题。

目前,我们普遍认为生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,找到代表蛋白质和DNA基因的编码区,特别是阐明非编码区的实质,从而认识生物有机体代谢、发育、分化和进化的规律;同时在发现了新基因信息之后进行蛋白质空间结构的模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。因此,现代生物信息学主要包括3个重要内容,它们分别是基因组信息学、蛋白质的结构模拟以及药物设计。

二、 生物信息学的发展

生物信息学是以计算机作为手段来为研究生物学数据的一门学科。自从人类基因组计划开展后,大量的生物序列被测定,如何从这些海量的数据,发现其生物学意义,就需要借助计算机数据库和计算机算法分析预测的手段。

数据库的建立是生物信息学发展的基础。目前国际上有三个主要的核苷酸、 蛋白质的公共数据库,这三个数据库每天都会进行数据的交换和共享,他们分别是美国国立生物技术信息中心(NCBI,http ://www.nebi.nim.nh.gov)、欧洲生物信息学研究所(EBI,http://www.ebi.ae.uk)和日本信息生物学中心(CIB,http:// www.ddbj.nig.ac.jp) 。这三个数据库 随着生物信息的发展及时更新,为生物信息学的发展提供数据平台。

随着后基因组时代的到来,人们把研究的重点转向了功能基因组的研究。其研究内容也不仅仅是简单的数据的查询和同源性的比较,而是延伸到了生命现象的核心,即从基因、蛋白质研究生命的本质,理解结构与功能、发育与疾病的关系。随着计算机技术的进步,针对不同的科研需要构建的网络资源平台、 生物分析软件应运而生,为生物学的发展提供了新技术的支持 。

三、 生物信息学的研究内容

从生物信息学研究的具体内容上看,生物信息学主要包括序列比对、序列分析、功能基因组、基因表达数据分析、蛋白质结构、药物设计等方面。

3.1 序列比对

在生物学中,序列是指核酸或氨基酸序列,序列比对是指比较两个或两个以上符号序列的相似性。双序列比较是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的序列。常用的程序包有BLAST、FASTA等。多重序列比较是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列比较,以确定该序列与其它序列间的同源性大小。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。常用的构建进化树的算法是UPGMA,软件包有PYLIP、MEGA等。多重序列比对是当前一个研究热点,常用算法有分治法,HMM及聚类法等。目前基因组比对也引起研究者们的关注。不同物种间的基因组比对既能够解释和预测他们蛋白质功能的相似性,又能够揭示不同物种间的联系。基因组比对由于涉及上亿的核酸,计算量很耗时,Delcher 提出一种后缀树的方法比较两个基因组。研究基因组比对算法也是一个研究方向。

3.2 序列分析

随着越来越多生物体的DNA序列被人类测定,人们希望通过序列分析来获知其对应的基因和基因调控序列。重新组装在散弹法DNA测序过程中被打散的DNA序列,即研究基因重组算法是生物信息学研究的重点课题。基因重组的难点是DNA有很多重复的区域,相同的片段可能属于不同的区域由于基因组中并非所有的核酸都构成基因,所以,序列分析的另一个研究内容是对基因组中的基因和基因调控序列进行自动识别。基因识别是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点、内含子、外显子和终止密码子等。目前在基因识别方面的算法大体可分为基于统计的方法、基于同源性的方法和基于机器学习(如人工神经网络)方法。同时对非编码区域的识别也很重要。在人类基因组中,编码部分仅占总序列的3%~5%,其它的非编码区可能具有未被识别的功能。分析非编码区DNA序列需要大胆的想象和崭新的思路。

3.3 功能基因组

功能基因组的任务是进行基因组功能注释(Genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用。功能基因组学的研究主要包括以下几个方面的内容:(1) 进一步识别基因,识别基因转录调控信息,分析遗传语言。(2) 注释所有基因产物的功能,这是目前基因组功能注释的主要层次。19xx年Owen White设计出了第一套基因组注释软件系统。该系统能够自动识别基因、转录基因和其他生物学特征,并能够初步分析它们的功能。序列同源性分析、生物信息关联分析、生物数据挖掘是进行功能注释的主要生物信息学手段。(3) 研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。(4) 比较基因组学研究,是识别和建立不同生物体的基因或其他基因组特征的联系。在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。(5) 功能基因组相关信息分析,包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测。

3.4 基因表达数据的分析

对基因表达数据的分析可以获取基因功能和基因表达调控信息,这是生物信息学的重大挑战之一。目前对基因表达数据的处理主要是进行聚类分析,虽然聚类方法是基因表达数据分析的基础,但是目前这类方法只能找出基因之间简单的、线性的关系。需要发展新的分析方法以发现基因之间复杂的、非线性的关系。最近国际上在基因调控网络分析方面出现了许多有意义的工作,建立起一些基因调控网络的数学模型,如布尔网络模型、线性关系网络模型、微分方程模型、互信息相关网络模型等,在此基础研究基因调控网络的动力学性质。

3.5 蛋白质结构预测

蛋白质结构预测是生物信息学的重要应用。蛋白质的氨基酸序列(也称为一级结构)可以容易地由它的基因编码序列获得。蛋白质的结构对于理解蛋白质的

功能十分重要。目前尚没有普遍可行方案实现蛋白质结构的准确预测;大多数方案为启发式的。蛋白质结构预测分为二级结构预测和空间结构预测。理论和实验表明,不同的氨基酸残基在不同的局域环境下具有形成特定二级结构的倾向性,因此在一定程度上二级结构的预测可以归结为模式识别问题。二级结构预测的目标就是预测某一个片段中心的残基是α螺旋,还是β折叠,或是其它。常用方法有立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神经网络方法。目前较为常用的几种方法有:PHD、PSIPRED、Jpred、PSEDATOR、PSA。在空间结构预测方面,比较成功的理论方法是同源模型法。运用同源模型方法可以完成所有蛋白质10%~30%的空间结构预测工作。得到蛋白质结构后就可以进一步分析研究蛋白质的功能。

3.6药物设计

基于生物大分子结构的药物设计是生物信息学中极为重要的研究领域。生物信息学可用于药物靶标基因的发现和验证。有许多数据库可用来获得不同组织在正常或疾病状态下基因表达的差异,通过搜索这些数据库,可以得到候选基因作为药物靶标,特异性地针对某一种疾病。另外,还可根据蛋白质功能区和三维结构的预测来对药物靶标进行鉴定,以便早期了解所研究蛋白的属性,预测它是否适用于药物作用。计算机辅助药物设计主要包括活性位点分析法、数据库搜寻、全新药物设计。目前,活性位点分析软件有DRID、GREEN、

HSITE等。另外还有一些基于蒙特卡罗、模拟退火技术的软件如MCSS、HINT、BUCKETS等。目前数据库搜寻方法分为两类。一类是基于配体的,即根据药效基团模型进行三维结构数据库搜寻。该类方法中比较著名的软件有Catalyst

和Unity,而以前者应用更普遍。另一类方法是基于受体的,也称为分子对接法,具代表性的分子对接软件主要有DOCK、F1exX和GOLD。全新药物设计方法出现的时间虽然不长,但发展极为迅速,现已开发出一批实用性较强的软件,其主要软件有LUDI、Leapfrog、GROW、SPROU以及北京大学来鲁华等开发的LigBuilder等,其中LUDI最为常用。

四、 国内外生物信息学的现状与未来展望

生命科学与信息科学是目前发展最为迅速的两大领域,作为这两大学科交叉的产物之一 ,生物信息学同样发展迅速,并在基因组学研究中发挥巨大的作用。

国外一直非常重视生物信息学的发展, 各种专业研究机构和公司涌现很多, 生物科技公司和制药工业内部的生物信息学部门的数量也与日俱增。由于对生物信息学的人才需求迅猛,发达国家也面临着供不应求、人才匮乏的局面。

国内对生物信息学领域也越来越重视,取得了一定成绩 , 甚至在国际上还占有一席之地,如北京的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在 EST 序列拼接方面以及在基因组演化方面、天津大学的张春霆院士在 DNA 序列的几何学分析方面都取得重要成果。北京大学研究建立起一个EMBL的镜像数据库,并提供数据检索服务。在复旦大学遗传学研究所,为克隆新基因而建立的一整套生物信息系统也已初具规模。中科院上海生化所、生物物理等在结构生物学和基因预测研究方面也有相当的基础,中科院计算所作为我国计算机科学的顶尖机构,利用自身优势,也开始在生物信息方面投入大量的人力物力,从事相关的研究。但从全国总体来看与国际水平差距很大,需要努力。

生物信息学不仅具有重要的理论价值 ,而且具有广阔的应用前景。生物信息学技术现 已广泛应用于人类基因组计划 ,生物医学、药物开发、农学、环 境监测等领域, 带来了巨大的经济效益和社会效益。 同时应加快生物信息学发展的研究 生物信息学不断分支分化 ,相继产生了基因组信息学、蛋白质组信息学、比较基因组学、药物基因组信息学 、硅生物学等多门具体的生物信息学 随着后基因组时代的到来 ,生物信息学将获得巨大发展 ,将成为生物医学、生物工程、农学、遗传学、制药和高科技产业的巨大推动力。我们应加强各门具体的生物信息医学研究,发展生物信息学的 新理论 、新技术 、新方法 。

相关推荐