生物信息学考试重点

1. 生物信息学：生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交

叉学科；它综合运用了数学、计算机学和生物学的各种工具来进行研究；目的在于阐明大量生物学数据所包含的生物学意义。

2. BLAST 直译：基本局部排比搜索工具意译：基于局部序列排比的常用数据库搜索工

具含义：蛋白质和核酸序列数据库搜索软件系统及相关数据库

3. PSI-BLAST：是一种迭代的搜索方法，可以提高BLAST和FASTA的相似序列发现率。

4. 一致序列：这些序列是指把多序列联配的信息压缩至单条序列，主要的缺点是除了在特

定位置最常见的残基之外，它们不能表示任何概率信息。

5. HMM隐马尔可夫模型：是蛋白质结构域家族序列的一种严格的统计模型，包括序列的匹

配，插入和缺失状态，并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。

6. 信息位点：由位点产生的突变数目把其中的一课树与其他树区分开的位点。

7. 非信息位点：对于最大简约法来说没有意义的点。

8. 标度树：分支长度与相邻节点对的差异程度成正比的树。

9. 非标度树：只表示亲缘关系无差异程度信息。

10. 有根树：单一的节点能指派为共同的祖先，从祖先节点只有唯一的路径历经进化到达其

他任何节点。

11. 无根树：只表明节点间的关系，无进化发生方向的信息，通过引入外群或外部参考物种，

可以在无根树中指派根节点。

12. 注释：指从原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基

因和其他功能元件（结构注释），并给出这些序列的功能（功能注释）。

13. 聚类分析：一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。

14. ESI电喷雾离子化：一种适合大分子如蛋白质离子化没有明显降解的质谱技术。样品溶

解后从高电压控制下的细针中喷出，形成的带电荷微小液滴从一个小孔直接进入质谱仪的真空室中，在其钟被一股惰性气体干燥形成气态离子，这些气态离子从分析仪向探测器加速（飞行）。

15. 机制辅助的激光解析/离子化（MAIDI）：这一技术通过质谱产生离子，这适合于没有降

解的大蛋白质的分析。基本原理是将分析物分散在机制分子中并形成晶体，当用激光照射晶体时，基质分子吸收激光能量，样品解吸附，基质-样品之间发生电荷转移使样品电子分离。

16. 质谱(MS)：是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法，从而使分子质

量的准确确定成为可能。基本原理：将分析物分散在基质分子中并形成晶体，当用激光照射晶体时，基质分子吸收激光能量，样品解吸附，基质—样品之间发生电荷转移使样品分子电离。

17. 微阵列芯片：将探针有规律地排列固定于载体上，与标记荧光分子的样品进行杂交，通

过扫描仪扫描对荧光信号的强度进行检测，从而迅速得出所要的信息。

18. 虚拟消化：是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上，由

计算机进行的一种理论上的蛋白裂解反应。

19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。

20. 虚拟细胞：一种建模手段，把细胞定义为许多结构，分子，反应和物质流的集合体。

21. 先导化合物：是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致

药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中，搜索能与生物大分子靶点匹配的化合物，或者搜索能与结合药效团相符的化合物，又称原型物，简称先导物，是通过各种途径或方法得到的具有生物活性的化学结构

22. 权重矩阵（序列轮廓）：是一种描绘蛋白质结构域家族相序列的方法。它们表示完全

结构域序列，多序列联配中每个位点的氨基酸都有分值，并且特定位置插入或缺失的可能性均有一定的衡量方法。（课件定义）基础上针对特定的应用目标而建立的数据库。

23. 系统发育学（phylogenetic）：确定生物体间进化关系的科学分支。

24. 系统生物学（systems biology）：是研究一个生物系统中所有组分成分（基因、mRNA、

蛋白质等）的构成以及在特定条件下这些组分间的相互关系，并分析生物系统在一定时间内的动力学过程

25. 蛋白质组（proteome）：是指一个基因组、一种生物或一个细胞/组织的基因组所表达

的全套蛋白质。

26. 进化树：物种的进化被表现成为一系列的分叉，并符合分类理论，这些树就叫做进化树。

27. DBGET/LinkDB：由日本的化学研究所和人类基因组中心所开发的在线数据检索工具。

也见Entrez，SRS。

28. 肽指纹图谱：蛋白质注释的一种方法，用质谱技术确定肽分子量（由蛋白酶消化产生）

并用来搜索蛋白质数据库找到与“虚拟消化”蛋白质相匹配项。

29. E值：对某个已识别出的相似度值S，E值是分值大于等于S的期望频率，改值可以被

理解为期望随机得到等于S或大于S值的分值数目。

30. 相似度表和距离表：使显示物种间一套选定字符的相关性的表格，采用匹配的百分比（相

似度表）或者差异的百分比（距离表）来表示。

31. 无监督分析法：这种方法没有内建的分类标准，组的数目和类型只决定于所使用的算法

和数据本身的分析方法。有监督分析法：这种方法引入某些形式的分类系统，从而将表达模式分配到一个或多个预定义的类目中。

32. 距离矩阵法：首先通过各个物种之间的比较，根据一定的假设（进化距离模型）推到得

出分类群之间的进化距离，构建一个进化距离矩阵，其次基于这个矩阵中的进化距离关系构建进化树；最大简约法：该法依据在任何位置将一条序列转变成另一条序列所需要突变的最少数量对序列进行比较和聚类；最大似然法：该模型可将一个给定替代发生在序列中任何位置的概率融合进算法，该方法计算序列中每个位置的一个给定序列变化的可能性，最可靠的树为总的可能性最大的那棵。

33. 一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理

和注释；二级数据库：对原始生物分子数据进行整理、分类的结果，即非原始的实验数据，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

1. 常用的三种序列格式：NBRF/PIR,FASTA和GDE

2. 三个核算序列数据库：GenBank，EMBL和DDBJ

3. 蛋白质序列数据库：SWISS-PROT和TrEMBL

4. 提供蛋白质功能注释信息的数据库：KEGG（京都基因和基因组百科全书）和PIR（蛋白质信息资源） 5. 目前由NCBI维护的大型文献资源是PubMed

6. 数据库常用的数据检索工具：Entrez，SRS，DBGET

7. 常用的序列搜索方法：FASTA和BLAST

8. 高分值局部联配的BLAST术语是HSPs（高分值片段对），E（期望值）

9. 多序列联配的常用软件：Clustal 10. 蛋白质结构域家族的数据库有：Pfam，SMART

11. 系统发育学的研究方法有：表现型分类法，遗传分类法和进化分类法

12. 系统发育树的构建方法：距离矩阵法，最大简约法和最大似然法

13. 常用系统发育分析软件：PHYLIP

14. 检测系统发育树可靠性的技术：bootstrapping和Jack-knifing

16. 查找简单基因的程序：NCBI ORF finder

17. 测试基因预测程序正确预测基因的能力的项目是GASP（基因预测评估项目）

18. 二级结构的三种状态：α螺旋，β折叠和β转角

19. 用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络，包括输入层，隐含层和输出层

20. 通过比较建模预测蛋白质结构的软件有SWISS——MODEL网站

21. 蛋白质质谱数据搜索工具：SEQUEST（原理：经试验确定的肽或肽片段的质谱与数据库中预测的质谱进行匹配）。 22. 分子途径最广泛数据库：KEGG

23.

Entrez搜索：PubMed的文献数据库MEDLINE。 SRS搜索方式：标准搜索，扩展搜索。

1. FASTA序列格式：第一行以“>”开头但并没有指明是蛋白质还是核酸序列。后跟代码，接着是注释（在同一行），通常注释要以“|”符号相隔，第一行没有长度限制。值得注意的是FASTA文件允许以小写字母表示氨基酸。文件扩展名为“.fasta”。

NBIR/PIR序列格式：第一行以“>”开头，后面紧跟两字母编码（P1代表蛋白质序列，N1代表核酸），再接一个分号，分号后紧跟序列标识号。后面是说明行，该行可长可短，没有长度限制。接下来是序列本身，以“*”号终止。文件的扩展名为“.pir”或“.seq”。 GDE序列格式：与FASTA的格式基本相同，但行首为“%”，文件扩展名为“.gde”。）

2. BLAST的五个子程序（1）Blastp，用蛋白质查询蛋白质序列，可以找到具有远源进化关系的匹配序列，方法是用待搜索蛋白序列与蛋白数据库比较。（2）Blastn，用核苷酸查询核苷酸序列，适合寻找分值较高的匹配，不适合远源关系，待搜索核酸序列与核酸数据库比较（3）Blastx，用蛋白质查询已翻译核苷酸序列，适合新DNA序列和EST序列的分析，将待搜索核酸序列按6个读框翻译成蛋白质序列，然后与数据库中的蛋白质比较。（4）Tblastn，用已翻译核苷酸查询蛋白质，适合寻找数据库中尚未标注的编码区，将数据库中核酸序列按6个读框翻译成蛋白序列，然后与待搜索蛋白序列对比。（5）Tblastx，用已翻译核苷酸查询已翻译核苷酸序列。适合分析EST序列，无论是待搜索核酸序列还是数据库中核酸序列，都按6个读框翻译成蛋白序列。

4. PSI-Blast的原理：是一种将双序列比对和多序列比对结合在一起的数据库搜索方法。其主要思想是通过多次迭代找出最佳结果。每次迭代都发现一些中间序列，用于在接下去的迭代中寻找查询序列的更多疏远相关序列（拓展了序列进化关系的覆盖面积）。具体做法是最初对查询序列进行BLAST搜索。接着把这次查找得到的每一击中项（高于选择的E值的选项）作为BLAST搜索第二次迭代的查询序列。第二次迭代应该找到比最初查询序列更多的进化关系，重复（迭代）这个过程直到找不到有意义的相似序列为止。

5明该树是可信的。第二，数据可以被重新取样，来检测他们系统上的重要性。在一种被称为bootsrapping的技术中，数据被随机从多序列联配的任何位置取样，接着被整合进入新的人工联配，这些联配之后通过构建树来检测。由于取样是随机的，一些位置可能被多次取样，而另一些则没由被取样过。Jack-knifing是一种和上述相似的过程，其中50%的原始数据被重新取样构成一个新的矩阵，再从该矩阵重新构建系统发育关系。

7．原核生物和真核生物基因组中的注释所涉及的不同问题：在原核生物中，基因密度很高

（也就是说，只有很少的基因组DNA）并且绝大多数基因不含内含子。在真核生物中，基因密度下降并且由于物种自身复杂的增高而使基因复杂度也增高。因此，在高等真核生物基因组中寻找基因可能会非常困难。

9. 预测蛋白质三级结构的三种方法 1)同源建模法：依据蛋白质与已知结构蛋白比对信息构建3D模型； 2)折叠识别法：寻找与未知蛋白最合适的模板，进行序列与结构比对，最终建立结构模型； 3)从头预测法：根据序列本身从头预测蛋白质结构。

11. 先导化合物的来源有四种来源： 1）通过偶然性观察发现的先导化合物（这个方法最

著名的例子就是亚历山大.弗莱明发现的青霉素，今天所用的许多抗生素皆由其发展出来）

2）也可以通过替代疗法的药物开发中发现的药物副作用来识别先导化合物（例如，镇定剂氯化物丙嫀是在试验中发现用在抗组胺剂时被发现的） 3）先导化合物也可以来自传统医药学（如奎宁化合物就来自金鸡纳的树皮） 4）先导化合物也可以来自天然的底物或是配体（比如说，肾上腺素作为舒喘宁的类似物用来治疗哮喘）

12. 简述DNA计算机的基本原理： 1)以编码生命信息的遗传物质—DNA序列，作为信息编码的载体，利用DNA分子的双螺旋结构和碱基互补配对的性质，将所要处理的问题映射为特定的DNA分子；2)在生物酶的作用下，通过可控的生化反应生成问题的解空间；最后利用各种现代分子生物技术如聚合酶链反应RCR、超声波降解、亲和层析、分子纯化、电泳、磁珠分离等手段破获运算结果。.DNA计算机优点：低能耗、存储容量高、运算速度快，可真正实现并行工作。

13. 简述DNA计算实现方式中，表面方式与试管方式相比具有哪些优点？

试管方式：就是在一个或多个试管的溶液里进行生化反应；

表面方式：是将对应的解空间的DNA分子固定在一块固体上，其次进行各种生化反应，或是在表面逐步形成解空间，然后根据具体问题对所有可能的解进行筛选，最后得到运算结果。优点：(1)操作简单，易于实现自动化操作；(2)减少人为操作过程中造成的DNA分子的丢失及其它操作失误；(3)减少分子在表面上的相互作用，同时增强分子间的特异性结合；(4)信息储存密度大，据估计，10毫克DNA表面上的储存密度是传统计算姬的10的8次方倍，而在溶液中仅为10的5次方倍；(5)结果易于纯化。

14. 简述PCR引物设计的基本原则及其注意要点原则：首先引物与模板的序列要紧密互补，其次引物与引物之间避免形成稳定的二聚体或发夹结构，再次引物不能再模板的非等位点引发DNA聚合反应（即错配）。注意要点：1、引物的长度一般为15-30bp，常用的是18-27bp，但不应大于38，因为过长会导致其延伸温度大于74℃，不适合于TaqDNA聚合酶进行反应。2、引物序列在模板内应当没有相似性较高，尤其是3’端相似性较高的序列，否则容易导致错配。引物3’端出现3个以上的连续碱基，如GGG或CCC，也会使错误引发几率增加。3、引物3’端的末位碱基对Taq酶的DNA合成效率有较大的影响。不同的末位碱基在错配位置导致不同的扩增效率，末位碱基为A的错配效率明显高于其他3个碱基，因此应当避免在引物的3’端使用碱基。另外，引物二聚体或发夹结构也可能导致PCR反应失败。5’端序列对PCR影响不太大，因此常用来引进修饰位点或标记物。4、引物序列的GC含量一般为40-60%，过高或过低都不利于引发反应。上下游引物的GC含量不能相差太大。

5、引物所对应模板位置序列的Tm值在72℃左右可使复性条件最佳。Tm值的计算有很多种方法，如按公式Tm=4(G+C)+2(A+T)，在Oligo软件中使用的是最邻近法（thenearestneighbormethod）。6、G值是指DNA双链形成所需的自由能，该值反映了双链结构内部碱基对的相对稳定性。应当选用3’端G值较低（绝对值不超过9），而在5’端和中间G值相对较高的引物。引物的3’端的G值过高，容易在错配位点形成双链结构并引发DNA聚合反应。7、引物二聚体及发夹结构的能值过高（超过4.5kcal/mol）易导致产生引物二聚体带，并且降低引物有效浓度而使PCR反应不能正常进行。8、对引物的修饰一般是在5’端增加酶切位点，应根据下一步实验中要插入PCR产物的载体的相应序列而确定。

15. 假设你得到一段未知基因的DNA序列，从你学习到的生物信息学分析方法和软件，设

计一个分析流程来分析该未知基因的功能和家族类别（包括系统发育树构建）

1、得到未知基因的DNA序列，用Blast做序列比对，找出与其基因相似的核苷酸序列和蛋白质序列。2、接着，用搜索出来的较相似的序列用ClustW进行多序列比对，得到该序列的保守情况和突变情况。3、最后用距离法构建系统发育树。

16. 假设你得到一段未知蛋白的氨基酸序列，从你学习到的生物信息学分析方法和软件，

设计一个分析流程来分析该未知蛋白的功能和家族类别以及其结构预测。

1、用该序列进行BLASTP搜索。2、再对其进行蛋白质结构域、功能域的搜索，可以用Znterproscan、Pfam，并对其进行结构分析。3、再用ClustW进行多序列比对。4、用人工神经网络的方法对其结构进行结构预测。

5. 多序列联配的意义：

1）分析多个序列的一致序列；2）用于进化分析，是用系统发育方法构建进化树的初始步骤；

3）寻找个体间单核苷酸多态性；4）通过序列比对发现直亲同源与旁系同源基因；5）寻找同源基因（相似的序列往往具有同源性）；6）寻找蛋白家族识别多个序列的保守区域；7）相似的蛋白序列往往具有相似的结构与功能；8）辅助预测新序列的二级或三级结构；9）可以直观地看到基因的哪些区域对突变敏感；10）PCR引物设计。

6. 系统发育学的研究方法： 1）表现型分类法：将表型相像的物种归类在一起，所有特征都要被考虑到； 2）遗传分类法：具有共有起源的物种归类在一起，也就是说，这些字符并没有出现在离它们较远的祖先序列； 3）进化分类法：该方法综合了表现型分类法和遗传分类法的原理，进化方法被普遍认为是最好的系统发育分析方法，因为该方法承认并采用目前的进化理论；

8. 简述人工神经网络预测蛋白质二级结构的基本步骤。

（1）输入数据（来自PDB）（2）产生一个神经网络（一个计算程序）（3）用已知的蛋白质二级结构来训练这个模型（4）由训练好的模型来给出未知蛋白的一个可能的结构

（5）最后从生物角度来检验预测的一系列氨基酸是否合理

10. 分子途径和网络的特点：（1)分子途径和网络的结构随意性大。图可以很简单，也可以非常复杂。它们可能包含了多个分支，盘绕的连接和回路。（2)它们通常也显示出节点间关系的方向，例如表示出代谢通路或信号传导的方向。调控途径和网络的图也应该说明相互作用是正的还是负的。正的相互作用(促进或者活化作用)常常用箭头表示，而负的交互效应(抑制或者失活作用)常常用T型棒表示。

相关推荐

生物信息学考试重点

专栏推荐