后基因时代与生物信息学

后基因组时代的生物信息学

摘要:介绍生物信息学产生背景、发展过程以及研究现状,讨论了后基因组时代分子生物学的主要研究领域功能基因组学、比较基因组学、蛋白质组学之间的关系。在分析基因组时代和后基因组时代生物信息学所研究内容的差异基础上.说明了基于分层递阶结构的系统结构、特征分析方法以及相应的软件系统开发将成为生物信息学发展的基本趋势之一。

关键词:生物信息学;后基因组时代;分层递阶结构

一、生物信息学的发展历程

生物信息学(Bioinformatics)是研究生物基因组中信息的获取、加工、储存、分配、分析和解释的一门新兴交叉学科,其具体研究内容包括蛋白质结构、序列比对、序列分析、药物设计、功能基因组、基因表达数据分析等方面。[1]

生物信息学的发展过程与基因组学研究密切相关,大致可分为三个阶段,即前基因组时代、基因组时代、后基因组时代。

第一个阶段是前基因组时代,介于20世纪5O年代末至80年代末(标志是HGP启动),这一时期也是早期生物信息学研究方法逐步形成阶段。生物信息学的早期研究仅限于利用数学模型、统计学方法和计算机处理宏观生物分子数据,作用的领域主要是生物遗传和进化信息处理,如基因签名、DNA克隆、DNA分子序列比对以解决基因同源性问题、分子生物数据存储和数据库建立等。

[2]

第二个阶段是基因组时代。这一阶段以各种基因组计划测序、网络数据库系统的建立和基因寻找为主要工作。以人类基因组计划和各种模式生物基因组测序为主要工作,大规模测序全面铺开。

第三个阶段是后基因组时代。随着后基因组时代的到来,人们把研究的重点转向了功能基因组的研究.其研究内容也不仅仅是简单的数据的查询和同源性的比较,而是延伸到了生命现象的核心,即从基因、蛋白质研究生命的本质,理解结构与功能、发育与疾病的关系。[3]

二、后基因组时代与生物信息学的关系

人类基因组计划的完成标志着后基因组时代的开始。这也标志着基因组学进入揭示基因功能的阶段,即功能基因组时代。功能基因组研究基因组的组成和功能,认识基因与疾病之间的关系,掌握基因的产物及其在生命活动中的作用。生物信息学新的研究方法从生物基因组这个整体水平上,通过从基因到表型的途径,直接对其生物功能进行研究。生物信息学步入后基因时代,其主要发展方向主要有以下几个方面:

1、各种生物基因组测序及新基因的发现

人类基因组和许多模式生物的基因组测序已经完成,接下来的工作是对更多生物基因组的测序,获取更多物种的全部基因。这是基因组研究的首要工作。测序基因组过程是这样的:将基因

组DNA切断成小片段,分别测序,再将它们拼接起来。全基因组鸟枪法这一测序战略在基因测序上的成功应用,使得测序速度增倍。而更重要的是在测序过程中适当算法和软件的应用,以解决其中高度重复序列的海量数据。[4]

从得到的基因组序列中发现新基因是生物信息学研究的热点之一。对于基因组较小的原核生物和一些真核生物,通过基因组学的理论方法预测其中新基因是可行的。对于从人类基因组这类复杂的基因组中发现新基因,可以利用EST和比较基因组学方法进行研究。通过比较基因组学的多种分析方法,可以从已知基因和蛋白质的序列同源性得到证据,区分出基因组上编码蛋白质区域和非编码蛋白质区域,从而确定新基因的编码区。

2、单核苷酸多态性分析

单核苷酸多态性(SNP),是指在给定的一个群体中,超过1%的个体在给定的遗传区域内发生一次核苷酸改变。随着人类基因组研究的深入,SNP研究成为生物信息学研究的热点这一。作为研究序列变化与可遗传的表型变化的有力工具,SNP在基因与疾病方面大有可为。目前SNP研究工作包括制作SNP图谱,找出适合的SNP作为重要的遗传标记。通过与健康个体SNP的比较,找出与遗传疾病相关的SNP标记。SNP在人类基因与疾病的研究中将发挥越来越大的作用。

3、基因组非编码区信息结构与分析

对于生物完整基因组,原核生物与真核生物的非编码区域占整个基因组的比例大不相同。微生物中的原核生物所含非编码区或内含子非常少,如细菌只占10%左右;对于高等生物和人的基因组,它却占了很大比例。因此生物体的复杂结构和功能不仅仅由基因决定定的,也不仅仅是由基因组中大量的非编码信息决定的,而是这些元素在生物体各个层次上复杂、动态的相互作用决定的。

4、比较基因组信息学

基因组信息学是生物学和进化研究领域近年来发展迅速的一个方向,主要是利用已有物种的全基因组序列数据进行分析,来揭示基因组层面的进化问题。比较基因组信息学也称为系统生物学(System Biology)。[5]在后基因时代,随着各种后基因组计划的实施,具有完整基因组数据的物种越来越多,比较基因组信息学主要通过模式生物基因组之间的比较与鉴别,为研究和理解生物的进化、人类遗传病候选基因的分离以及新的基因功能预测提供重要依据。它的主要使用方法有分类方法和比对技术(序列比较、结构部件的比较等)。

5、蛋白质组信息学

蛋白质组信息学重点研究蛋白质的空间结构,主要有两类研究方法:其一是同源类建模方法,包括比较建模 (Comparafivemode )、折叠识别 (Fold recognition)、以及网络模型方法和基于隐马尔可夫模型的机器学习方法等;其二是“从头预测 (Ab inifio)”方法,不依赖于已有的结构数据信息,直接从蛋白质序列利用分子动力学原理预测和推断结构信息。这类方法主要依据了一个基 2

本热力学假定:一个蛋白质分子的溶液中的天然构象对应于热力学上最稳定、自由能最低的构象。Bonneau和Fischer等人的工作是这方面的代表性研究,其关键的技术主要包括:(1)收集有各种蛋白质几何外形的数据库。(2)一个能量评估函数。(3)对各种蛋白质构象的搜索技术。大多数从头预测方法使用Monte Carlo、模拟退火和遗传算法等技术对蛋白质构象空间进行搜索,并对每个构象进行能量评估,以找到自由能最低的构象。[6]蛋白质组信息学的目的就是利用这些方法研究蛋白质的空间结构以揭示蛋白质的结构与功能的关系、总结蛋白质结构的构成规律、预测蛋白质肽链折叠和蛋白质的结构等。

三、未来生物信息学展望

综观当前后基因组时代的研究现状与进展,可以看到生物信息学的研究呈以下几个趋势:

1、研究目标由“组成”转向“功能”

以往的分析大多是通过同源性搜索、模式发现、多序列比对以及序列聚类分析等比较技术,来实现对序列组成与一级结构的理解,这些方法的共同特点是过分依赖于生物大分子序列组成。然而,为了理解不同生物大分子的功能差异以及同一生物大分子在时间跨度上的变化情况,就必须对其功能表达情况作深入的分析与研究。可以预见到,近年来广泛应用的基因微阵列分析技术和NMR分子识别技术将会发挥越来越重要的作用。

2、研究内容由“静态”转向“动态”

为进一步理解细胞信号的规律、掌握各种大分子的代谢途径、揭示生命的奥秘,仅对静态的单个生物大分子进行研究是不够的,必须研究基因表达过程的动态特性。但由于基因表达的复杂性,目前的研究只能通过分子模拟的手段来进行。尽管如此,有些研究者已经开始使用一些数理模型对基因调控网络进行研究。

3、研究角度由“局部性”转向“整体性”

由于数据的不完整或分析软件处理结果的差异,以往的研究分析只能自始至终使用同一个软件工具,研究分析的对象只能集中在一个局部的数据集上。目前随着已完成基因组测序的生物物种数目的增加,以及分析工具的日益丰富,未来的研究会充分利用比较基因组学的分析方法,对各个物种的基因组信息进行综合分析与比较,最终得到整体性的生物学结论。

4、研究方法由“单一”转向“综合”

传统的研究方法无论在广度还是深度方面都有诸多限制。如在广度方面,主要采用“每次只研究一个基因”的办法;而在深度方面,则使用多组实验分析比较时“每次只修改一个变元”的办法。这些办法对于以往实验数据较少的情况是适用的,但对于高通量表达的数据分析以及基因组水平的数据分析,则无能为力了。只有综合使用各种数理统计方法和信息分析处理技术,才能满足需求。

3

四、结论

人类基因组计划的胜利完成已经对生命科学的研究产生了深远的影响,为人类进一步认识自我、探索生命奥秘、增进健康、改善生存条件、提高生活质量奠定基础。面对获得的生命“天书”一一基因组序列数据,人类亟需破译基因组所蕴涵的功能信息,解密生命,这些为生物信息学产生、发展提供了动力。生物信息学经过四十多年的发展,已经形成了较为成熟的、由生物学、数学、物理学、化学、信息科学等众多学科组成的交叉、边缘学科,并已成为现代分子生物学研究的重要工具之一。随着各种人类后基因组计划实施,涌现出海量的生物分子数据,这为生物信息学的发展提供了更加广阔的发展前景。伴随生物信息学技术研究的不断深入和发展,必将为分子生物学研究提供强有力的技术支撑。

参考文献

[1] 李美满 ,许中华 ,刘柯.生物信息学中数据库的应用及整合[J].智能计算机与应用,2012(10)

[2] 唐旭清,朱平.后基因组时代生物信息学的发展趋势[J].生物信息学,2008(03)

[3] 乔纳森·佩夫斯纳.著,张之荣,译.生物信息学与功能基因组学[M].北京:化学工业出版社

[4]张江丽.生物基因组测序发展现状和对策建议[J].科技导报.2011(09)

[5]刘志瑾. 基因组信息学2009[J]. 国外科技新书评介.2011(05)

[6] 王正华,献. 后基因组时代生物信息学的新进展[J]. 国防科技大学学报.2003(01) 4

 

第二篇:后基因组时代的生物信息学

生物信息学.734BZ>:C4B=><Q3>34<>C?BA3;9

专论与综述

后基因组时代的生物信息学

铭!

(德国比勒费尔德大学,工程技术学院生物信息学与医学信息学系,比勒费尔德,!"##$%&)

摘要:随着人类基因组计划的完成,不断积累的巨量的生物学数据和快速发展的信息学技术,给后基因组时代的生物信息学研究带来了新的挑战。该文对后基因组时代的生物信息学研究内容进行了比较全面的描述,分别就其研究对象和研究方向作了区别讨论,分析了生物信息学研究的现状和趋势,比较了国内外的研究发展情况和差距。针对我国在研究中所存在的主要问题,提出了建议并做了展望。关键词:后基因组;生物信息学中图分类号:’#(#)&

文献标识码:*

文章编号:(-%%()&+,-"$$+$"%-"%%%,"%+

!"#"$%#&’()"*+"$),-.#+)"/-$#’"*-&(

./012345

(!"#$%&’"(&)*+,),(*)%’$&,-./0"1,-$23(*)%’$&,-.,4$-52&6)*7"-8()2)96,+,"2"*"21:(,;"%.,&6,!<==>?@+,"2"*"21,A"%’$(6)01+)&(*):6789:;;899<:=;>?@=8A3>4><A787:?B4584>?8@C>D8;A,A788E@>484A3B==F34;C8B9345G>=:?8><H3>=>53;B=IBABB4IA78BIGB4;8?84A><34<>C?BA3>4A8;74>=>5F@>9848J;7B==84589<>CH3>34<>C?BA3;934A78@>9A"584>?88CB)K4A739@B@8CGBC3>:9C898BC;7I39;3@=3489><H3>34<>CL?BA3;9BC8I89;C3H8I,C8;84AMN!@C>5C89989B4I;:CC84AC898BC;7AC84I934H3>34<>C?BA3;9BC8I39;:998IB4IA78?B34C898BC;75B@9H8AJ884.734BB4IA78J>C=IBC8@C8984A8I)K4BII3A3>4,A78B:A7>C?BO89B9:5589A3>4C85BCI345H3>34<>C?BA3;9C898BC;7,8I:;BA3>434.734B,B4I>:AL=3489B@8C9@8;A3G8>4<:A:C8I8G8=>@?84A)2-34#&5+:@>9A"584P?3;;Q3>?<>C?BA39;9

自从上世纪S%年代美国能源部和国立卫生院正式启动人类基因组计划以来,现代生物学发生了除人类基因前所未有的变化和快速发展。&$年来,

序列测序外,另有上百个物种的基因序列都基本上已经得到。其间,不仅是序列测定,同时进行了其他生物学,特别是分子生物学的研究,获得了大量的实验生物数据。生物信息学,作为一门新兴学科,便应运而生。生物信息学就是利用计算机科学(信息学)的技术手段来研究生物学的数据,如对生物数据进行获取,存储,传输,计算,分析,模拟,预测等等。目前一般意义上的生物信息学还是局限在基因层次,而广义上的生物信息学是可以研究生物学的任何方面。生命现象是在信息控制下不同层次上的物质、能量与信息的交换,不同层次是指核酸、蛋白质、细胞、器官、个体、群体和生态系统等。这些层次的系

统生物学研究将成为后基因组时代的生物信息学研究和应用的对象。

如目前公开的有$%%多个生物信息学数据库,大家熟悉的U84QB4O、(WC>A、涉及核VJ399X0UU等等,酸序列、基因组、蛋白质序列、蛋白组、蛋白质结构、代谢反应及途径,其他混合型以及其他方方面面的第一期专辑生物数据。每年”1:;=83;*;3I9M898BC;7”便有大量新的和更新的数据库。如何构建新的生物数据库,如何整合现有的数据库或生物数据,如何开发生物数据软件工具,如何应用于工农医药方面的研究等,是直接摆在我们面前的问题。

发达国家如美国,欧洲,日本在生物信息学研究方面,不容置疑,已经走在国际前沿了。尽管我们国家也参与了人类基因序列&Y的测定工作,但由于各种原因,生物信息学的起步研究还是落后于基它

收稿日期:修回日期:-%%("%-"&R;-%%("%#"R

陈铭(&S,-"),男,浙江省乐清市人,研究方向:系统生物信息学,8"?B3=:?;784TA8;7<BO):43"H38=8<8=I)I8!作者简介:

万方数据

)-生物信息学第#卷

国家。如何在后基因组时代能快速有效追赶甚至在某些方面超越,都是我们不得不认真考虑并付诸行动的任务。本文将力求全面地讨论后基因组时代的生物信息学研究的方向,对比国内外的差距,寻求较好的发展道路,并对当前国内生物信息学的科研教育提出些建议。

和完善。长期以来,通过神经解剖、神经生理、神经病理和临床医学研究,获得了大量有关脑结构和功能的数据。近年来,神经生物学研究也取得了大量的科研成果,但是这些研究大多是在组织、细胞和分子水平进行的,不能很好地在系统和整体水平上反映人脑活动的规律。随着核磁共振成像和正电子发射断层成像的发展,应用计算机技术,使得我们有可能在系统和整体水平上无创地研究人脑的功能定位、功能区之间的联系以及神经递质和神经受体等。由此产生的神经信息学研究将对我们了解脑、治疗脑和开发脑产生重大作用。#’*

医药学

人类基因组计划的目的之一,就是找到人类基因组中的所有基因。如何筛选分离各疾病的致病基因,获得疾病的表型相关的基因信息的工作还刚开始。如何在现有的基因测序的工作平台上,强化生物信息学平台的建设,加快对突发性疫情,公共卫生进行监控和对制病源进行快速有效的分析和解决。而结合生物芯片数据分析,确定药物作用靶,再利用计算机技术进行合理的药物设计,将是新药开发的主要途径。#’+

农牧渔林学

基因组计划也加快了农业生物功能基因组的研究,加快了转基因动植物育种所需生物信息学研究的步伐。通过比较基因组学、表达分析和功能基因组分析识别重要基因,为培育转基因动植物、改良动植物的质量和数量性状奠定基础。通过分析病虫害,寄生生物的信号受体和转录途径组分,进行农业化合物设计,结合化学信息学方法,鉴定可用于杀虫剂和除草剂的潜在化学成分。可以进行动植物遗传资源研究,保护生物多样性。同样也可以对工业发酵菌进行代谢工程的研究,有目的地控制产品的生产和丰收。#’,

分子和生态进化

另一个重要的研究对象就是分子和生态进化。通过比较不同生物基因组中各种结构成分的异同,可以大大加深我们对生物进化的认识。从各种基因结构与成分的进化,密码子使用的进化,到进化树的构建,各种理论上和实验上的课题都等待生物信息学家的研究。

!后基因时代生物信息学研究内容

虽然生物信息学可以理解为”生物学"信息学

(计算机科学及应用)”,但作为一门学科,它有自己的学科体系,而不是简单的叠加。有必要强调的是:生物信息学是一门工程技术学科。必须注意到生物信息学的研究内容与研究对象或客体(应用方面)是不同的概念。

#生物信息学研究对象

很显然,生物信息学的研究对象是生物数据。

当然最”经典”的是分子生物学数据,是基因组技术的产物:$%&序列。后基因组时代将从系统角度研究生命过程的各个层次,走向探索生命过程的每个环节:微观(深入到研究单个分子的结构和运动规律)和宏观(结合宏观生态学,从大的角度来研究生命过程)。着重于“序列、结构、功能、应用”中的“功能和应用”部分。就研究面来说,涉及并参与各生命科学领域的研究。#’!

分子与细胞生物学以$%&

分析编码区(%&蛋白质为对象,

和非编码区中信息结构和编码特征以及相应的信息调节与表达规律等。由于生物功能的主要体现者是显型蛋白质及其生理功能,研究蛋白质的修饰加工、转运定位、结构变化、相互作用等活动将推动对基因的功能、表达和调控的理解。对细胞活动,器官、系统、整体活动的调控都很关键。#’#

生物物理学

生物物理学其实是物理学的一个分支,就象生物信息学是信息学的一个分支一样,研究的是生物的物理形态,涉及生物能学,细胞结构生物物理学,电生理学等等。但这方面的生物数据获取和分析也越来越依赖于计算机的应用了,如模型的建立,光谱、成像数据的分析等等。#’)

脑和神经科学

脑是自然界中最复杂的物质,其功能是自然界

)生物信息学研究方向

后基因组时代,除了继续序列和结构分析外,更

万方数据中最复杂的运动形式并随着人类的进化而不断发展

第5期陈铭,后基因组时代的生物信息学!#

多的研究力量则投入到功能分析,也就是分析研究遗传型到表型的过程。!"#

序列分析

十几年来,序列方面的分析计算,如序列对准方面的算法,是生物信息学的传统研究领域。经典的算法如记分法和概率统计法:$%%&’%()*+,-*./0算

[#][5]

法,和62&&%*7)489:79&;1(230+,)3%4()*算法[!][=][>]

,,还有语言学方法,%’$%-4)’$%3<948?曲线[@]法等等。目前有关A$B,特别是C$B序列及针对

致性。其实这已经成为了通过标准查询机制来连接

[R]

技术可能可以解数据库的一大阻碍了。H*39’9PI

决这一问题。!"=

结构分析与功能预测

结构分析的研究重点在于研究蛋白质的空间结构。利用分子模拟技术结合计算机图形技术可以更形象、更直观地研究蛋白质等生物大分子的结构,蛋白质的空间结构的更清晰的表述和研究对揭示蛋白质的结构和功能的关系、总结蛋白质结构的规律、预测蛋白质肽链折叠和蛋白质结构等,都是有力的帮助和促进。同时,也可以对已经被测定的生物大分子的三维结构进行显示和编辑操作。分子模型的建立为下一步进行的分子模拟以及了解结构与功能的关系打下了基础。蛋白质结构预测是利用已知的一级,二级序列来构建蛋白质的立体结构模型,对蛋白质进行结构预测需要具体问题具体分析,在不同的已知条件下对于不同的蛋白质采取不同的策略。因为它跟新药开发直接联系,排名前5S位的世界医药公司都有搞专门从事这方面的研究部门。分子模拟及功能预测还要涉及高性能计算机的硬件平台和处

[T]

理技术,如网格技术。

系统发育推断,大规模序列(全基因组的序列)的更新,更灵敏,效率高的算法也不断推出,必须经常阅读最新期刊才能保持不落伍。!"5

数据库建设

生物数据库的建设是进行生物信息学研究的基础,尽管目前已有这么多的公共数据库可供使用,如D%*E)*8。而且它们还同时集成开发了相应得生物

分析软件工具,如$FEG的E’).3系列工具,背后都是大量生物信息学的工作。但我们进行专项研究时,往往需要组建新的数据库。建立自己的数据库,就必须分析数据库的储存形式和复杂程度,选择怎么样的数据库,怎么开发信息交流平台,要不要提供相应的分析程序,甚至要不要将各搜索算法硬件化,实行并行计算和先进的内存管理以提高速度等等。如还要考虑到数据库的价格,象H4)/’%(<<<"94)/’%"

的大型数据库比较昂贵,(<<<"(I.L’"7I1JK/9()

免费但功能可能满足不了要求,目前看来基于/9()

(<<<"Q9.3P4%.L’"M$GN开发的共享数据库O9.3P4%1JK

可能是个选择。甚至考虑用N7K数据库,也有94P)

可能。如果要构建二级数据库,可能还要涉及到其他多个数据库的数据挖掘和整合。!"!

数据库整合和数据挖掘

生物数据库覆盖面广,分布分散且是异质的。当根据一定的要求要将多个数据库整合在一起提供综合服务,提供数据库的一体化和集成环境,最简单的是用超级链接或进行拷贝重整,但往往简单的连接不合要求,重整涉及数据下载和更新的问题,而且不是真正意义上的“整合”。目前使用较多的是联合数据库系统,它是GE7分布式数据库解决方案的重要组成部分,支持用户或应用程序在同一条1JK语句中查询不同数据库甚至不同数据库管理系统中的数据。也有直接基于G*3%4*%3技术而进行远程查询而进行文本数据挖掘和重整的。由于生物的分支学

!">大规模功能表达谱的分析

生物芯片因为其具有高集成度,高并行处理能

力,可自动化分析,可对不同组织来源,不同细胞类型,不同生理状态的基因表达、蛋白质反应进行监测,获得功能表达谱。可进行A$B,蛋白质的快速检测,药物筛选等。无论是生物芯片还是蛋白质组技术的发展都更强烈地依赖于生物信息学的理论与工具。目前有关表达谱的分析还不很精确,仍需大量的工作来提高对斑点图像处理的能力和系统的分

[U]析。

!"@代谢网络建模分析

代谢网络涉及生化反应途径,基因调控,信号转

导过程(蛋白质间的作用)等等。后基因组时代的研究将研究大规模网络的生命过程,有叫作“网络生物

[#S]学”研究。

(#)预测调控网络

尽管目前已有多个代谢网络途径数据库,有些数据可以直接参考使用,而且这些数据库本身除了手工和自动检索文献以补充数据外,也有开发预测

[##]

工具的,但是都有局限性和准确性的问题。还需

要大量的工作去做从基因组来预测网络,或针对性地去整合某些数据,研究其规律,开发算法模型等。

万方数据科较多,整合时还必须注意到不同数据库语义学一

#"生物信息学第"卷

已有若干研究小组从事“基因组到代谢网络”的预

[!"]

。测

的进步和发展推动。生物信息学各个领域中的软件工具数目庞大。并行处理、面向对象算法、人工智能等已被应用到最新的程序中。各种人工语言如各个共享程序开发小组如5*.’&/3(+++,5*.’G>?@A,

等也应运出现。积极参与这些小组的讨论&/3,./-)

和工作,充分利用公开的资源和代码,对提升程序开发能力都很有作用。#,H

商业化

据I4%报告(+++,5*.1*:+./3;,2.8),生物信息

学技术到"EED年全球市场需求将达到#HE亿美元,并将在今后!E年内以每年"$J的速度递增。由于前期得到的巨量的生物数据以及后基因组时代的数据量以及数据的复杂性,在生物信息技术市场中,存储系统需求最大。其次是服务器,生物数据比较复杂,所以要求服务器的性能相对要高些。其它硬件投入和开发的也包括生物医学工程中仪器设备中的数据储存和分析处理部分。另外,生物芯片预计会成为一个新兴的产业,大量使用于疾病的分析治疗,药物的设计,代谢工程等领域。而实验室数据信息管理系统(AI@>),也将分享这生物信息时代的市场。

(")网络普遍性分析

建立网络关系后,往往是就简单物种而言,好多人已经对网络的“图论”方面的属性做了分析,如最

[!#]

短距离,连接度等,正试图给出一些重要的结论。[!$]也有分析其最小单元的代谢途径的。越来越越

多的人开始开发专门软件工具来自动分析大规模网络系统的物理属性,提供路径导航,模式搜索,图形简化等等分析手段。

(#)建立模型分析

目前已有若干个比较优秀的代谢网络建模工具,如%&’()*(+++,-&’()*,./-),(+++,&12&33,012&33(7.8&’(-&,9:3+./3;,2.8<*-./,-./=(9*9)./-),45).36&等,它们大都基于代谢控制分析原理,使用常微分方程来求解反应速率。基于标准化数据输出输入考虑,它们已经组成了合作组,共同支持>?@A(+++,

数据交换。其他形式的建模工具也很多,)583,./-)

如用随机方法处理的,因为毕竟确切的动态参数目前还是很难得到。其它如用B&:/*9&:进行建模的,

由于其强大的数学计算功能和明了的示图形式,也

[!C]

。另外,如何自动建越来越多地引起人们的兴趣

立大规模的代谢网络,也是个正在进行中的课题。

[!D]

与代谢分析直接相关的便是系统生物学研

$生物信息学在国内外的发展情况

生物信息学在我国的真正起步才近几年,以往

究。它将是后基因组时代最为突出的研究方向。(+++,&85317&*;&35&/-,;&)"EED1"E!C年战略0@?A

发展目标中已将系统生物学列为三大主要挑战之一。它要求我们看待生命活动过程要用系统的眼光,而不能只盯住一个方面的数据分析而隔离联系。

[!F]所谓的“虚拟细胞”模型就是基于系统考虑。

更多的是零星涉及和研究,值得高兴的是目前有象中国科学院、中国医学科学院、军事医学科学院、北京大学、清华大学、天津大学、浙江大学、复旦大学、哈尔滨工业大学、东南大学、中山大学、内蒙古大学等等单位在从事研究。但诸多原因,其中包括认知原因,我们已经在这新兴的学科领域落后于人家。可以从表!的生物信息学大事记中对比看出我们的贡献和差距。

#,F程序开发

程序开发是生物信息学研究过程中无所不在的

任务。这里强调的是生物信息学发展对计算机科学

表!

年份!K$#年!KC#年!KCC年!KCD年!KCH年

国外

第一台电子管计算机0LIMN诞生

O/(92*)N/*2P,Q(8&)R(:).9和@(S/*2&R*3P*9)发现4LM的双螺旋结构第一个蛋白质序列(牛胰岛素)被测定

“生物学中的信息理论讨论会”于美国田纳西州的%(:3*95S/-召开由TS5&/:B,U.2P&=编辑的《生物学中的信息理论讨论会》出版

我国第一台电子管计算机诞生

国内外生物信息学历史事件对比

国内

第<期

年份!"#$年!"#"年!"34年!"3<年!"3$年!"E!年!"E$年!"E#年!"E3年!"EE年!""4年!""O年!""T年!""$年!""#年

国外

陈铭,后基因组时代的生物信息学

国内

我国人工合成牛胰岛素结晶

%&’’&()*)+,-.+’开发/012操作系统(!)0&&56&,7’89:’.;)序列比准算法=&’’>.?>(;)>&发明@语言A>66B7(&.和C7:6D66&’成立微软(<)F,>()897(&G,7’序列比准算法

生物信息学专业期刊(@DA1KF)创刊;德%7GHIJ:66>.创立C@?技术;

举行;视国生物信息学会议(B@A)AL7G’&F(G+:.(G:-创建@MM语言;

窗微软问世

日本核酸序列数据库==AN诞生;蛋白质数据库F91FF8C?K*建立P7GGH9766推出C&G6语言

美国国家生物技术信息中心(0@A1)成立;C&7G.+’实现QDF*D程序国际人类基因组计划(RBC)启动;第一届国际电泳、超级计算和人类基因组会议在美国佛罗里达州会议中心举行;D6(.;):6实现APDF*程序;R**C!I4标准发布欧洲生物信息学研究所(SA1)获准成立;第一届1FJA国际会议美国国家医学图书馆(0PJ)举行(CG+(&+,&)的概念;J7G;9>6U>’.提出蛋白质组N7,&.B+.6>’V推出NDW语言XD

日本信息生物学中心(@1A)成立

9O@推出2JP工作草案;DYYH,&(G>Z生产商用=0D芯片

中国开始参与人类基因组计划

我开始实施高技术研究发展的“E#O计划”我国实现酵母内氨酸转移核糖核酸的人工合成

OO

北京大学蛋白质工程和植物遗传学工程国家实验室

加入欧洲分子生物学网络(SJA’&()成立;中国科学院召北京大学生物信息学中心(@A1)开“=0D芯片的现状与未来”和“生物信息学”香山会议

!""3年大肠杆菌基因组完成

成立;瑞士生物信息学研究所(F1A)亚太生物信息学网络(DCA>+0&()

成立;美国@&6&G7遗传公司成立;线虫基因组完成;@DA1KF期刊更名为A>+>’Y+G,7(>;.中国人类基因组研究北方中心(北京)和南方中心(上海)成立人类<<号染色体序列完成

德、日等国科学家宣布基本完成人体第<!对染色体的测序工作美、日、德、法、英、中#国科学家和美国@&6&G7公司联合公布人类基因组图谱及初步分析结果老鼠基因组完成RBC完成

!""E年

!"""年<444年<44!年<44<年<44O年

中国获准加入人类基因组计划,成为第六个国际人类基因组计划参与国

中国科学院上海生命科学研究院生物信息中心(F1A1)成立

首届全国生物信息学会议(@@A)举行;中国完成籼稻基因组工作框架图

表<

年份文章数量

!""OT

!""T!4

!""$!4

生物信息学文献历年统计

!""#3T

!""3E<

!""E<"$

!"""O$4

<4443!!

<44!!4!"

<44<!T<O

<44O!O$<

<44T!<!E

!统计数据到<44T年<月!$日

表<列出了C:[J&5收录的以关键词“A>+>’Y+GW检索到的历年发表的文章数。可以看出大量,7(>;.”

研究文献出现在<!世纪后。其中我国共有!OE篇占全部$$TE篇的<I$\,而美国则以发表<!#4篇占全部的O"\之多。我国学者在生物信息学领域发表的有高影响力研究论文只有不到美国学者发表数量的百万方数据

分之六,差距依然很大。我国生物信息学的研究面不广,进步不快,甚至重复工作原地踏步。虽然多了些学校开设了生物信息学专业,可是成果不多。而且目前有从事研究的还不是走主流路线。具有前瞻性,大家型的科学家很少。一般的教授,教师能力有限,有些甚至对生物信息学本身知其一不知其二,缺

NL生物信息学第1卷

乏正规的训练,很少了解目前的研究重点,热点和今后方向。由于所申请的经费支持力度和持续时间的原因,大多数学者只能选择易于获得研究结果的科研项目,一般缺乏新颖性和创造性。这可能与我们国家处于快速发展阶段的”短平快”思路和环境有关。另一方面还可能是教育体制上的原因,科研项目的分配问题,行政管理的改革问题,传统的不鼓励学生进行批判性、创新性地学习和思考,也可能是问题症结所在。另外,信息时代信息的交流是决定性因素,尤其是!"#$%"$#的畅通,更是不能有人为的限制访问或限制流量这些今后回顾时会成苦涩笑话的举措。目前我国的科研经费真正投入并落到实处的占国家&’(的份额还很小。而德国)***年科研项目基金用于生物信息学启动研究就投入+千万马克,(,,,-./0-.$)122)年资助3个生物信息学研究中

心又投入了)亿马克(,,,-454/-.$)。目前德国近另有至少+2所大学有生物信息学研究中心和小组,

+2个生物信息学公司的)622名从业人员从事生物信息学研究和产品开发。

泛应用将为这些领域带来根本性变革。

3致谢

作者非常感谢徐德昌教授对本文的帮助。

参考文献(7$/$%$"8$9):

[)]:$$.;$5<"=->?@A"98BC-’-:$$.;$5<"D@A"98BE;0F%G#B5/F%

[J]=$HA$"8$=G5G;<%G#I=$<%8B$9J-KF;->GF;-)*62,LM,LLNDL+N-[1]=5G#BO-P,@<#$%5<"K-=-!.$"#G/G8<#GF"F/8F55F"5F;$8A;<%9A49$Q

[J]-J-KF;->GF;,HA$"8$9)*M),)L6,)*+D)*6-[N]RF9SGO-TG..$"K<%SFUKF.$;9/F%>GFG"/F%5<#G89[K]-’F%.%$8B#

R;A,$%E8<.$5G8(A4G;G9B$%9,122)-[L]@AC-T-,K8V<%#IJ-K-:$A%<;:$#,F%S9<".&$"F5$!"/F%5<#G89

[J]-K$#BF.9G"CF5WA#<#GF"<;>GF;F0I<".>GF8B$5G9#%I,1222XF;QA5$),=$%G$9Y.G#F%E-R-RF"FWS<,Y;9$UG$%=8G$"8$-[+]’F"0=-,=$<%;9’->-&$"$9#%A8#A%$W%$.G8#GF"4I;G"0AG9#G85$#BF.9

[J](N),+L2D+)--&$"F5G89,)**L,1N

[3]ZB<"07-,ZB<"0C-O-ZCA%U$9,<"!"#AG#GU$OFF;/F%XG9A<;G[G"0<".

[J]E"<;I[G"0’:E9$HA$"8$9-J->GF5F;-=#%A8-’I"<5G89,)**L,)):636D6M1-[6]=#$U$"97-,&F4;$C-E-,>$8BBF/$%=-\"#F;F0ID4<9$.S"F,;$.0$

[J]%$W%$9$"#<#GF"/F%4GFG"/F%5<#G89->%G$/G"09G">GFG"/F%5<#G89,1222,(:)L)N*MDL)L-[M]CBG$"E,PF9#$%!,&F..$##$’-&%G.#$8B"F;F0G$9$5WF,$%G"0.%A0

[J](:.G98FU$%I-’%A0’G98FUOF.<I,1221,612=AWW;)=)63D=)M2-[*]T<%GB<%<"7-OB$<"<;I9G9F/5G8%F<%%<I.<#<[J]-(B<%5<8F0$"F5G89,

(:122N,LL)L66D*6-[)2]><%<4]9GEDV-,\;#U<GZ-:-:$#,F%S>GF;F0I:^".$%9#<".G"0OB$

[J]C$;;’9PA"8#GF"<;\%0<"G[<#GF"-:<#A%$7$UG$,9&$"$#G89,122L+:)2)D))N-[))]R<%W(-’-,(<;$I=-,7F5$%F(-OB$W<#B,<I#FF;99F/#,<%$[J]-(9AWW;-)):>GFG"/F%5<#G89,1221,)M=)D=M-[)1]

=$;SFUY-,K<;#9$U:-,\;9$"&-E%$8F"9#%A8#GF"F/#B$[J]5$#<4F;G95F/K$#B<"F8F88A9_<""<98BGG/%F59$HA$"8$.<#<-&$"$,)**6,)*6:&C))D13-[)1]@<0"$%E-,P$;;’-E-OB$95<;;,F%;.G"9G.$;<%0$5$#<4F;G8"$#Q

[J]()L6M):,F%S9-(%F87=F8VF".>>GF;=8G,122),13M)M2ND)2-[)N]@<"0$%E-,P$;;’-E-OB$95<;;,F%;.G"9G.$;<%0$5$#<4F;G8"$#Q

[J]()L6M):,F%S9-(%F87=F8VF".>>GF;=8G,122),13M)M2ND)2-[)L]=8BA9#$%=-,P$;;’-E-,’<".$S<%O-E0$"$%<;.$/G"G#GF"F/5$#<4F;Q

G8W<#B,<I9A9$/A;/F%9I9#$5<#G8F%0<"G[<#GF"<".<"<;I9G9F/8F5W;$‘[J](:5$#<4F;G8"$#,F%S9-:<#>GF#$8B"F;,1222,MN)N13DN1-[)+]CB$"K-,TF/$9#<$.#7-aA<"#G#<#GU$($#%G"$#5F.$;F/0$"$%$0AQ

[J](N):;<#$.5$#<4F;G8"$#,F%S9G"#B$8$;;-!"=G;G8F>GF;,122N,NNL6D3+-[)3]RG#<"FT-PFA".<#GF"9F/=I9#$59>GF;F0I[K],C<54%G.0$:K!O

(%$99,KE-[)6]VF$,V-K-,=8B<//J-C-OB$XG%#A<;C$;;:<9F/#,<%$$"UG%F"5$"#

[J]()2):/F%8F5WA#<#GF"<;8$;;4GF;F0I-O%$".9>GF#$8B"F;,122),)*L2)D3-

+展望

生物信息学依然是门新兴的工程技术学科,对

刚起步的我们来说依然充满机会和挑战,后基因时代已基本给我国的生物信息学发展提供很大的舞台。生物信息学首先是门信息学,所以我们必须端正一些可能的认识错误,必须呼吁引导更多的计算机,数学,物理人才加入到其中的研究。如统计学,概率论,组合数学(尤其是图论),拓扑学,运筹学,函数论,信息论,计算数学,群论,人工智能,都是已经在生物信息研究中发挥了巨大作用。尽快缩小我国在计算机信息学的核心技术,巨型计算机的应用,以及互联网核心技术方面与世界领先国家的差距。

我国是一个生物信息资源最为丰富的国家之一,这为我们的生物产业奠定了发展的基础。我们应当结合自己的资源条件,建设自有的数据库,如已进行的杂交水稻数据库等,在平等的基础上与国外共享生物信息资源。在考虑社会效应的同时,不断加强基础性研究。如我们的蛋白质组学有优势,可以继续投入生物信息学研究力量,构建完整而强大的科研平台。后基因时代的生物信息学研究将于生命科学和计算机科学一道发展,它将对生物学,医学,药学,农业,环境,信息技术和新材料研究都将起着深刻的作用。生物信息学的进一步深入研究和广

万方数据

相关推荐