生物信息学简答题

1 简答生物信息学产生的历史必然性，以及生物信息学的研究内容。

答：历史必然性：一方面，近50年，计算机科学和信息科学已经成为发展最为迅速的学科领域。计算机应用的普及，以及各类型数据库在各行各业中的广泛应用，给各个科学的发展带来了新的契机与活力，生物领域中计算机科学和信息学的应用也日益广泛，尤其是计算生物学有了较大的突破，这一切的成果都为生物信息学的产生和发展奠定了坚实的基础。另一方面，随着实验生物学的迅猛发展，尤其是DNA测序技术日益趋于成熟，测序速度和长度的大幅度提高，实施基因组计划已经具备了必需的实验手段。20年来，科学家完成了包括人类自身在内的约60种生物的全基因组测序，产生了大量的数据信息。而生物学数据的积累并不仅仅表现在DNA序列数据方面，与其同步的还有蛋白质一级结构数据。此外，迄今为止，已有一万多种蛋白质的空间结构以不同的分辨精度被测定。当科学家面对如潮水般涌来的数据时，数据的处理和分析就成为了科学家发现的主要“限速步骤”。数据的收集、分析和应用之间的额巨大反差，迫使全世界主要的研究机构全力转向对生物信息学技术的开发和研究。生物信息学的诞生和发展是应时所需，是历史的必然。

研究内容：⑴获取各种生物的全基因组及其他数据

⑵新基因发现 ⑶单核苷酸多态性分析

⑷基因组中非编码区域的结构与功能

⑸从基因组水平研究生物进化及其他遗传语言的可能

⑹全基因组的比较研究 ⑺蛋白质组学研究

⑻基因功能预测 ⑼新药设计和定向化酶

⑽遗传疾病的研究以及关键基因鉴定 ⑾生物芯片

2.生物信息学的基本原理和基本分析方法（检索/搜索，比对等）

答：建立、检索、处理、利用数学统计方法：动态规划方法、机器学习与模式识别技术、数据库技术及数据挖掘、人工神经网络技术、专家系统；分子模型化技术:量子力学和分子力学计算、生物分子的计算机模拟、因特网技术

3.通过一个具体实例分析，说明利用生物信息学进行DNA序列分析鉴定的策略答：①慢性粒细胞性白血病WT1基因

WT1基因是人体内一个复杂的基因,它在一些恶性肿瘤患者体内呈现有规律的表达,这使它一直成为多年来研究的热点.WT1在人类多数急性白血病(AL)细胞异常地高表达,而在正常人的骨髓则无表达或极微量表达。

②在NCBI上查询WT1基因

③在“Top Organisms（Tree）”里选择“Homo sapiens”

④选择第8条记录结果并打开

⑤用RepeatMasker分析和屏蔽重复序列，结果没有重复序列

⑥ 通过NCBI / VecScreen在线分析载体污染，结果为“No significant similarity found”，说明无载体污染

详细步骤：a、将序列贴入，并点击【Run VecScreen】按钮

b、点击【View report 】按钮，结果如下。“No significant similarity found”，说明无载体污染

⑦通过“NCBI / ORF Finder”在线分析得开放阅读框，然后单击OrfFind按钮

⑧采用BDGP：Neural Network Promoter Prediction来预测该序列的启动子，可通过Home（BDGP）→ Software Tools（Analysis Tools）→ Promoter Prediction程序进入该网站。该网站能预测人和果蝇的启动子。

4、通过一个具体的实例分析，说明利用生物信息学进行蛋白质结构研究的策略，要求最终得到蛋白质3D建模结果。

答：组成prion的物质是不含核酸的蛋白质，这种蛋白质称为prion蛋白质（prion protein）。①利用BioEdit软件分析Prion蛋白质的氨基酸组成：Sequence → Protein → Amino Acid Composition,

②利用BioEdit软件分析Prion的亲水性、疏水性情况：Sequence → Protein → Kyte & Doolittle Scale Mean Hydrophobicity Profile ③NCBI → Blast → bBlast（蛋白对蛋白的）??可分别得该Prion的保守结构域

④利用“Motif Scan”网站对Prion蛋白质进行motif结构分析，分析结果如下图所示，其中，Summary一栏是该蛋白列所包含的全部motif，而Match Details一栏则是对所有这些motif的评分，即符合程度分析

⑤利用“Prosite”网站对Prion蛋白质进行motif结构分析

⑥利用PredictProtein网站对人Prion Protien序列的二级结构预测

⑦利用Swiss-Model网站对Prion蛋白进行高级结构预测和同源建模：Modeling→myWorkplace→Automated Mode，只有两种结果，如下，使用rasmol软件能使蛋白空间结构可视化。

5、进化树构建的基本步骤

答：①多序列比对（自动或手动）：用Clustal，有些软件已整合上Clustal，如MEGA ②确定建树方法（取代模型）：BIOEDIT，距离（UPGMA、NJ、ME）、最大节约MP、最大似然ML

③建树：MEGA ④进化树评估：自举法（Bootstrap）

6.同源建模的基本步骤

答：①搜索同源的参考蛋白（PDB）

②确定结构保守区：如果目标蛋白有2个以上已知结构的参考蛋白，可将之叠加确定保守区，若仅有一个有空间结构则做多重比对

③拟建蛋白主链模型：保守区主链坐标直接来自参考蛋白的，环区可用片段搜索或自动生成④侧链安装：在转子文库中挑选最佳残基侧链构象组合

⑤优化处理：根据分子动力学和分子力学（能量最小化计算）

⑥检测合理性：常用Profiles-3D检测

7.为什么说生物信息学是大规模研究生命科学的利器？

答：生物信息学是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法，以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析，并进一步挖掘和解读生物学数据。目前，其核心是基因组信息学，包括基因组信息的获取、处理、存储、分配和解读。还包括：蛋白质空间结构模拟、预测和药物分子设计；软件开发和方法学研究。未来，生物信息学将进一步揭示生命系统的复杂性、遗传语言、基因表达谱、基因组、蛋白质组、代谢组、细胞信号组、系统生物学等等。因此，生物信息学是大规模研究生命科学的利器。

8.试述蛋白质三维结构预测的三类方法

①同源建模，对于一个未知结构的蛋白质，找到一个已知结构的同源蛋白质，以该蛋白质的结构为模板，为未知结构的蛋白质建立结构模型，序列相似性低于30%的蛋白质难以得到理想的结构模型；②在已知结模板的序列一致率小于25%时，使用折叠识别方法进行预测；③在找不到已知结构的蛋白质模板时使用从头预测的方法。

10、蛋白质分子结构的层次？相应的分析工具？

答：蛋白质一级结构分析：ProtParam：蛋白质理化参数检索

ProtScale：蛋白质亲疏水性分析

coiled-coil 卷曲螺旋预测

蛋白质二级结构预测：二级结构指α‐helix，β‐sheet，无规则卷曲(coil)，motif

等组件。

预测方法：

1、神经网络、遗传算法、机器学习等；2、与已知二级模板建立序列谱矩阵(profile matrix)、PSI‐BLASTP；3、与同源蛋白多重比对。

模式和序列谱分析：EBI：InterProScan、 Proside 蛋白质结构域、家族和功能位点

Pfam 蛋白质家族比对； TMHMM 跨膜区预测