生物信息学

旧版课件

4. 课件概况:概念与例子;同源物,直系同源,旁系同源的定义;Dayhoff PAM的矩阵;序列比对算法:全局比对算法和局部比对算法。

5. 学习目标:定义:同源物,直系,旁系同源;通过NCBI上的BLAST去执行双序列比对;理解PAM矩阵。

6. 羊的β-促肾上腺皮质激素;猪的促肾上腺皮质激素A;催产素;抗利尿素。

7. H.C.沃森和J.C. Kendrew”,对比抹香鲸肌红蛋白的氨基酸序列和人类的血红蛋白。

8. 两两序列比对是最基本的生物信息学操作。它可以用来判断基因,蛋白是否具有相似的结构或功能;它可以确定两个蛋白间所共有的结构域或模体;它是BLAST搜索的基础;它也可以用于基因组的分析。

9. 在双序列比对中,对蛋白序列的比对要比DNA比对更有用;许多的氨基酸都具有相同或相似的理化性质。对于密码子的兼并性来说,第三个位置的碱基改变并不影响编码该氨基酸;可以将DNA序列翻译成蛋白序列并执行双序列比对。

10.

11. 但是,在一些情况下,研究核苷酸序列就比较合适,例如分析所克隆的CDNA片段的一致性,分析非编码区的DNA序列以及DNA的多态性;例如穴居人和现代人的DNA比对。

12. 序列比对:将两条序列按最大一致性进行排列,从而评估它们的相似程度。

13. 同源性:若两条序列有一个共同进化的祖先,那么它们是同源的。

14.

15. 直系同源和旁系同源:直系同源序列是不同物种内的同源序列,它们来自于物种形成时共同祖先基因(例如,人的RBP蛋白和小鼠的RBP蛋白);旁系同源基因是通过类似基因复制的机制产生的同源序列(如,人的α球蛋白和β球蛋白)。

16.

17. 这个系统发育树展示了不同生物的直系同源球蛋白的进化远近关系。

18. Β-球蛋白;α-球蛋白;细胞球蛋白;肌红蛋白;神经球蛋白

19.

20. 双序列比对的步骤:构建打分矩阵,生成算法;插入空格使两条序列对齐;分数反应了序列的相似程度;全局比对或局部比对;估计比对发生机会的概率。

21. 一个比对分值的计算:S = Σ (一致+不匹配)-Σ(空格罚分)。

25. Β球蛋白和肌红蛋白的氨基酸序列比对结果。

26. 打分的分值由匹配、不匹配、空格罚分三部分组成。

27. 每个氨基酸对应的不同的氨基酸所获得的分值来自一个打分矩阵。

29. 定义:一致性:在多大程度上两个(核苷酸或氨基酸)序列是不变的;相似性:指两条序列的相近程度,是基于一致性和保守性来讲的;保守性:一个特定位点的氨基酸改变不影响该序列的原始残基的的理化性质的改变称为保守性替换。

30.

31. 序列比对中间隙(空格)的引入会得到罚分。

32. 间隙:进化过程中的突变(插入、删除)是序列比对是间隙产生的原因;其作用一反映了进化中发生的变化,二可以使两个蛋白进行全长比对。在BLAST中,很少改变空格罚分值。

33. 图给出了人的RBP蛋白和牛β-乳球蛋白的双序列比对。(方式为全局比对)相似的残基具有某些相同的理化性质:碱性(KRH+),酸性(DE-),疏水性(WFYLIVMA)等。属于保守性替代。

34. 人类的RBP蛋白与虹鳟鱼的RBP蛋白的序列比对。使用双序列比对的同源研究有助于调查这个蛋白的进化历史。

35. 该图地球上生命进化时间尺度的简要介绍。其中化石记录是不同物种分化的主要数据来源。

36. 直系同源的甘油醛-3-磷酸脱氢酶(GAPDH)具有很大的保守性。有些家族的旁系同源物的序列高度趋异,但其都具有十分相似的三维结构。因此通过双序列比对可了解两个任意蛋白间的保守性程度。

第二部分

38. 该图是通过18种球蛋白统计得到的替换频率。从人到八目鱼的肌红蛋白和血红蛋白。灰色是>40%的保守替换频率,白色是>21%的替换频率,红色则是不发生替换。 39.

40. 根据上述的可接受点突变的数目,绘制出以下打分矩阵,色氨酸的原位突变为+17,突变为苏氨酸则-5分,因为在上面的PAM图中,W几乎不替换为T。因此认为从W到T的突变被认为是不合理的。

41. 相比较PAM250,PAM10打分矩阵对不匹配的罚分更大。

42. Dayhoff的超蛋白家族表:PAM(可接受的点突变),又是进化趋异的单位,表示两个蛋白1%氨基酸发生变化的时间。不同的蛋白家族有着不同的进化速率,免疫球蛋白链就是高可接受突变率的蛋白质。

43. 人和小鼠的K-酪蛋白序列比对结果。

44. 45. 46.人和小鼠的泛素序列比对则显示此蛋白具有高度的保守性。

47. 该图是来自DAYHOFF的可接受点突变数目。展示了氨基酸被替换的情况。(V和I或者S和T的替换经常被接受;C、W很少被其他氨基酸所替换)该图并不完整。

48. 对直系同源的甘油醛-3-磷酸脱氢酶的序列比对发现:一些位点的氨基酸容易发生突变,另一些则不容易发生突变。高保守的残基可能对该蛋白的结构和功能很重要。

49. 该图为氨基酸的相对突变可能性,描述了在比较短的进化时期内每个氨基酸发生变化的频率,丙氨酸的值预设为100。

50. 氨基酸归一化频率=每种氨基酸发生突变的次数/该氨基酸出现的总次数。其中,亮氨酸、丝氨酸、精氨酸都有6个密码子所编码,甲硫氨酸、色氨酸只有一个密码子所编码。对W来说,三个碱基任何一个突变都将导致氨基酸的变化,则突变能力较低,意味着它的替代突变是自然选择所不接受的。

51. 该矩阵是DAYHOFF的可接受点突变数目表。

52. 氨基酸突变概率矩阵。

53. 上面是原始氨基酸,左侧为替换氨基酸。

54. 替换矩阵描述的是I替换成J的突变概率;替换矩阵是由两个序列比对构成;替换矩阵描述了在一个进化时期内氨基酸发生真实突变的概率。替换矩阵主要有PAM矩阵和BLOSUM矩阵。

55. PAM1矩阵基于紧密地相关蛋白序列的全局比对。PAM1矩阵是计算氨基酸差异替换小于1%的序列的矩阵。PAM1矩阵的进化时期为一个PAM,即在长度为100的氨基酸序列中有1个变化所发生的时间。对于PAM250矩阵来说,则在两个长度为100的蛋白序列上有250个氨基酸发生变化。所有的PAM数据相关蛋白序列的一致性都>85%.

56. PAM1的突变概率矩阵。

57. 当PAM=0时,矩阵则成为单位矩阵,因为没有氨基酸发生变化。

58. 当PAM=2000或者正无穷时,每种氨基酸等概率出现,而这个数值就是氨基酸的归一化

频率。

59. 此图为PAM250突变概率矩阵,通过PAM1矩阵乘以自身250,从而得到的。 矩阵乘法:M1的每一行和M2的每一列依次相乘。

PAM250是BLAST搜索数据库常用的矩阵,应用于20%氨基酸一致性的进化距离的蛋白。如图,若原序列是丙氨酸,则有13%的概率替换为丙氨酸;色氨酸则有55%的概率保持不变,在这个进化距离中。

60. 此图为PAM250的对数比值打分矩阵。

61. 从突变概率矩阵到打分矩阵的意义:通过分值,可以判断BLAST的两条氨基酸序列的得分情况;操作方便;允许将氨基酸残基的分值进行加和。

62.从突变概率矩阵到对数比值打分矩阵:M(a,b)是真实的比对下氨基酸残基a,b的比对概率,P(b)是氨基酸归一化频率,(指的是每种氨基酸出现的频率=每种氨基酸突变的次数/该氨基酸出现的总次数)。10*log比值比的对数,这样仅仅是比较方便计算。例如色氨酸突变为色氨酸的分值为17.4;M(a,b)=[M(a→b)+M(b→a)]/2。

63. 打分矩阵的意义:+2代表氨基酸取代是随机频率的1.6倍;分值为0表示中性;分值-10表示对应氨基酸的正确同源比对中比对在一起的频率是这些氨基酸随机比对在一起的频率的1/10。

当两条序列比对时,我们可以给出一个分值,这个分值就是比对的残基所得的分值的简单加和。

64.BLOSUM打分矩阵的分值是2*log以2为底的比值比的分值。因此在相同的尺度上,BLOSUM的分值没有PAM分值大。

当需要执行一双序列比对时,应基于查询序列和匹配序列的一致程度,从而选择矩阵。如图所示,PAM矩阵是基于近相关蛋白家族的数据,PAM1和BLOSUM80适合研究高度保守的序列,PAM250和BLOSUM45(用于评价一致性<45%的蛋白)适合研究远相关蛋白的序列。

不同的打分矩阵对不同相关程度的蛋白序列的敏感性不同。

69. 双序列比对的检测限度:该图描述了一致性程度和同源关系的一种趋势;假设两条序列各为100个氨基酸,当一致性为100%时,则这100个残基没有发生变化,即PAM=0如果只有50%的一致性,对应PAM=80,说明每100个残基发生80次的变化;当蛋白质有20%的一致性的时候,仍能认定是显著相关。在PAM=250的区域被称为模糊区域:即在这个尺度上,蛋白可能是同源的,但是同源性难以检测。

 

第二篇:生物信息学考试题

生物信息学bioinformatics

一、 名词解释

Silicon cloning:利用公共数据库信息, 借助计算机软件分析, 推测目的基因的编码区序列, 辅助全长cDNA克隆的方法 BLAST:即基本局域联配搜索工具,Basic Local Alignment Search Tool,是一个局部比对搜索工具,用来确定一条查询序列和一个数据库的比对,最早的版本不引入间隙,但现在所用的版本已经允许比对中引入间隙。

Entrez :是由 NCBI 主持的一个数据库检索系统,它包 括核酸,蛋白以及 Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。因此, 可以从一个 DNA 序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻 (neighboring)信息,给出与查询条目接近的信息。 Entrez 中的数据库包括: Entrez 中核酸数据库为:GenBank, EMBL, DDBJ 蛋白质数据库为:Swiss-Prot, PIR, PFR, PDB

PSI-BLAST:是一种迭代的搜索方法,可以提高 BLAST 和 FASTA 的相似序列发现率。

ORF:开放阅读框(ORF)是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能 被终止子打断。编码一个蛋白质的外显子连接成为一个连续的 ORF。当一个新基因被识别, 其 DNA 序列被解读,人们仍旧无法搞清相应的蛋白序列是什么。这是因为在没有其它信息 的前提下,DNA 序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码 子)ORF 识别包括检测这六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA 。 序列而其内部不包含启动子或终止子, 符合这些条件的序列有可能对应一个真正的单一的基 因产物。 ORF 的识别是证明一个新的 DNA 序列为特定的蛋白质编码基因的部分或全部的先 决条件。

相似性 (similarity)/(identify):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

生物数据库检索(database query,数据库查询):对序列,结构以及各种二次数据库 中的注释信息进行关键词匹配查找. 生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白 质序列数据库中与待检序列具有一定程度相似性的序列.

E 值:对某个已识别出的相似度值 S,E 值是分值大于等于 S 的期望频率,改值可以被 理解为期望随机得到等于 S 或大于 S 值的分值数目。

序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们 按照一定的规律排列.

同源性(homology):生物进化过程中源于同一祖先的分支之间的关系.

Refseq:美国国家生物信息技术中心(NCBI)提供了具有生物意义上的非冗余的基因和蛋白质序列的RefSeq参考序列数据库 。

3’UTR:3’非翻译区的缩写,真核生物的转录终止信号是在 3’非翻译区的 : polyA。

CpG island:是 DNA 上的一个区域,富含 GC,两者以磷酸酯键相连,长度 : 约几百到几千 bp 不等,常出现在管家基因或频繁表达的基因的启动子附近, 在这些部位,CpG 岛具有阻止序列甲基化的作用。

GSS:基因组勘测序列,是基因组 DNA 克隆的一次性部分测序得到的序 :cosmid/BAC/YAC 末端序列、 通过 Exon 列。包括随机的基因组勘测序列、 trapped 获得基因组序列、 通过 Alu PCR 获得的序列、以及转座子标记(序 列等。 EST:表达序列标签—是从一个随机选择的 cDNA 克隆,进行 5’端和 3’ 端单一次测序挑选出来获得的短的 cDNA 部分序列,代表一个完整基因 的一小部分.。

MEGA(Molecular Evolutionary Genetics Analysis):是一款免费的构树软件, : 它提供了序列比对、格式转换、数据修订、距离计算、系统树重建和可信度 mRNA 氨基酸序列及遗传距离进行系统发生分 评估等全套功能, 能对 DNA、 析以及基因分化年代的分析。

maximum parsimony method:最大简约法基于进化过程中所需核苷酸(或 氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选 出所需替代数最小的拓扑结构作为最优系统树。

neighbor—joining method:邻接法,基于最小进化原理经常被使用的一种算 法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。在重 建系统发生树时,认为在进化分子上,发生趋异的次数可以不同,它是最有 效的的基于距离数据重建系统树的方法之一。

molecular phylogenetic tree:分子进化树,精确地反映物种间或群体间在进 : 化过程中发生的极微细的遗传变异,而且借助化石提供的大分子类群的分化 年代能定量地估计出物种间或群体间的分化年代。

Domain :功能域。蛋白质中具有某种特定功能的部分,它在序列上未必是连续的。某蛋白质中所有功能 域组合其起

来决定着该蛋白质的全部功能。

EMBL:EMBL 实验室—欧洲分子生物学实验室,EMBL 数据库—是非盈利 : 性学术组织 EMBL 建立的综合性数据库,EMBL 核酸数据库是欧洲最重要的 核酸序列数据库,它定期地与美国的 GenBank、日本的 DDBJ 数据库中的数 据进行交换,并同步更新。

BLAST :Basic Local Alignment Search Tool,基本的基于局部对准的搜索工具;一种快速查找与给定序列 具有连续相同片断的序列的技术。

SRS(sequence retrieval system):序列查询系统,是 EBI 提供的多数据库查询 : 工具之一。有与 Entrez 类似的功能外,还提供了一系列的序列分析工具,可 以直接进行在线序列分析处理。

dynamic programming:动态规划程序;它将一个问题合理分解成一些小的子问题,然后利用部 分计算解得到最终答案。

Match score maximum likelihood approach methylation microarray microsatellite MIAME(the minimum information about a microarray experiment) minisatellite mismatch score molecular clock匹配得分最大似然法:序列比较算法对相同字符匹配设置的得分。 指在一系列的序列比对中,考虑每一个字符被替代的概率的一种 系统发生学方法;也是一种基于纯统计的系统发生重建方法。 一个甲基 ( —CH 3 ) 附着在一个核苷酸的 含氮碱基或者蛋白质 上。 在一个固体基片上的已知位置固定了 DNA 探针的有序阵列。 在基因组中很多非常短的核酸序列出现的区域,例如串接出现 5 ‘-CA-3‘ 的重复序列;通常在个体间变化很大。

PAM unit:PAM 单位是一种进化单位;特别地,指被观察的对象中每 100 个残基发生一 个替换所需要的平均进化时间。 对两条序列进行编辑操作,通过字符匹配和替换,或者插入和删除。

PubMed:是一个免费的生物医学文摘数据库,提供部分论文的摘要及指 : 向全文的链接。作为 Entrez 资讯检索系统的一部分。

motif:又称模体,实序列中局部的保守区域,或者是一组序列中共有的一小 : 段序列模式。 通常由 2、 个二级结构单位组成, 3 一般为α螺旋、 β折叠和环。 motif 作为结构域中的亚单位,表现结构域的各种生物学功能。

tructure domain:结构域,是在蛋白质三级结构中介于二级和三级结构之间 : 的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维 结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。

coiled coil:卷曲螺旋,是蛋白质中由 2~7 条α螺旋链相互缠绕形成类似麻花 状结构的总称。卷曲螺旋是控制蛋白质寡聚化的元件,在机体内执行着分子 识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。

NCBI :美国国立生物技术信息中心(National Center for Biotechnology Information),1988 年设立,为 美国国家医学图书馆(NLM)和国家健康协会(NIH)下属部门之一。提供生物医学领域的信息学服务, 如世界三大核酸数据库之一的 GenBank 数据库,PubMed 医学文献检索数据库等。。

Conserved sequence :保守序列。演化过程中基本上不变的 DNA 中的碱基序列或蛋白质中的氨基酸序列。

Tandem repeat sequences:串联重复序列。染色体上同一碱基序列的多拷贝重复,在物理作图中用作标记物。

Sequence tagged site:序列示踪位点,简写为STS。在人类基因组中只出现一次的位置和序列已知的长约200到500bp的短DNA序列片断。由于可以通过PCR检测到,STS在将来源于许多不同实验室的 基因图谱和测序数据进行定位和定向时非常有用,并且STS在人类基因组的物理图谱中也具有界标的作用。表达的序列标签(ESTs)就是那些得自cDNAs的STSs。

Gene mapping:基因作图。对DNA分子(染色体或质粒)中基因的相对位置和距离进行确定的过程。 Physical map :物理图谱。不考虑遗传,DNA 中可识别的界标(如限制性酶切位点和基因等)的位置图。 界标之间的距离用碱基对度量。对人类基因组而言,最低分辨率的物理图谱是染色体上的条带图谱;最高 分辨率的物理图谱是染色体中完整的核苷酸序列。

UniGene : 美国国家生物技术信息中心提供的公用数据库, 该数据库将 GenBank 中属于同一条基因的所有 片断拼接成完整的基因进行收录。非蛋白质编码区 :非蛋白质编码区(“Junk”DNA)占据了人类基因组的大部分,研究表明“Junk”是许多对 生命过程富有活力的不同类型的 DNA 的复合体,它们至少包括以下类型的 DNA 成份或由其表达的 RNA 成 分:内含子(intron)、卫星(Satellite)DNA、小卫星(minisatellite)DNA、微卫星(microsatellite)DNA、非均一核 RNA (hmRNA) 短散置元 、(short interspersed elements) 长散置元 、(long interspersed elements) 、伪基因(pseudogenes)等。除此之外,顺式调控元件,如启动子、增强子等也属于非编码序列。

PAM方阵:指的是氨基酸置换矩阵,属于打分矩阵,用序列相似的一组蛋白质的对位排列来确定单步氨基酸变化,以此来预测进化过程中大部分可能的氨基酸变化。

BLAST(Basic Local Alignment Search Tool):基于局部序列排比的常用数据库搜索工具。

二级数据库:对于原始生物分子进行整理、分类的结果。是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的(存放从初级数据库派生而来的序列信息的数据库)

权重矩阵:基础上针对特定的应用目标而建立的数据库。

标度树(scaled tree):分支长度与相邻节点对的差异程度成正比的树。

rooted tree有根树:含有一个被认为是公共祖先的节点、 并且该节点到其他节点只存在 唯一路径的一棵系统发生树。 无根树(unrooted tree):只表明节点间的关系,无进化发生方向的信息,通过引用外群或外部参照物种,可以在无根树中指派跟节点。(一种系统发育树,所有在树中的种系的最后共同祖先不显示。)

信息位点:由位点产生的突变数目把其中的一颗树与其他树区分开的位点。在这个位点上至少有两种不同的核苷酸,且这些核苷酸至少出现两次。

HMM(隐式马尔科夫模型):一种统计模型,它考虑有关匹配,错配和间隔的所有可能的组合来产生一组序列排列。①

距离法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。其次基于这个矩阵中的进化距离关系构建进化树。

近邻:任意一颗无根树中仅被一个内部节点分隔的一对物种。

序列注释:是指从原始序列数据中获得有用的生物学信息。这主要是指基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。

系统发育学(phylogenetic):确定生物体间进化关系的科学分支。

系统生物学(systems biology):是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程。

分子途径:指一组连续起作用以到共同目标的蛋白质。

折叠识别法:寻找与已知蛋白最合适的模板,进行结构和序列比对,最终建立机构模型。

又称为线索化方法。(另一版本:先假设一个特定的蛋白构象,然后对这一构象进行评估的过程。)

蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。

虚拟筛选:针对重要疾病特定靶标生物大分子的三维结构或定量构效关系(Quantitative structure-activity relationships,QSAR)模型,从现有小分子数据库中,搜寻与靶标生物大分子结合或符合QSAR模型的化合物,进行筛选实验研究。

1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科

2、相似性(similarity):两个序列(核酸、蛋白质)间的相关性。

3、同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。

4、同一性(identity):两个序列(核酸、蛋白质)间未发生变异序列的关系。

5、序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

6、生物数据库检索(database query,数据库查询):对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。

7、生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。

简答

1、 计算生物学/生物信息学的主要理论方法?

①基于数据挖掘(知识发现)的方法(Data-mining, Knowledge Discovery)Extracts the hidden patterns from huge quantities of experimental data, and forms hypotheses as a result.

②基于模拟分析的方法(Simulation-based Analysis)Tests hypotheses with in silicon experiments, providing predictions to be tested by in vitro and in vivo studies.

FASTA 序列格式: 第一行以“>”开头但并没有指明是蛋白质还是核酸序列。后跟代码, 接着是注释(在同一行) ,通常注释要以“|”符号相隔,第一行没有长度限制。值得注 意的是 FASTA 文件允许以小写字母表示氨基酸。文件扩展名为“.fasta 。 .fasta” .fasta NBIR/PIR 序列格式: NBIR/PIR 序列格式: 第一行以“>”开头,后面紧跟两字母编码(P1

代表蛋白质序列, P1 ,再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短, N1 代表核酸) 没有长度限制。 接下来是序列本身, “*” 以 号终止。 文件的扩展名为 .pir “.pir .pir”或 .seq “.seq .seq”。 序列格式: ,文件扩展名为“.gde 。 .gde” GDE 序列格式: 与 FASTA 的格式基本相同,但行首为“%” .gde )

2、什么是 in-vivo、in-vitro、in-silico?

在体内,在体外,在电脑上运行计算

3、试画图并说明什么是局部与全局的对位排列?

①全局对位排列: 对全长序列进行对位排列,试图使尽可能多的字符在同一列中匹配,适用于相似度较高且长度相近的序列。

自己画图吧,你们懂的。

②局部对位排列:对序列的局部区域进行对位排列,

4、画图并标注说明EST分析获得全长cDNA序列的一般过程?

e3intresting

生物信息学考试题

生物信息学考试题

est

生物信息学考试题

in est

in

生物信息学考试题

Search in est Search in est

生物信息学考试题

53

二、 问答

1、 序列比对(alignment)是如何实现的?

通过插入间隔(gap)的方法使不同长度的序列对齐(长度一致);优化的序列排列应使间隔的数目达到最小,同时使相似性区域的长度达到最大

2、 序列分析可以用来做什么?

核酸:序列相似性,调控位点,转录起始、转录终止位点,翻译起始、密码子,终止位点,外显子,内含子(可变剪切位点),酶切位点,RNAi;

生物信息学考试题

蛋白质:序列相似性,结构域,亚细胞定位,表达谱(也可以是核酸分析内容)

对于编码序列的分析:遗传密码---20种氨基酸及密码偏好、转录起始终止;5’-URT和3’-UTR;酶切位点;亚细胞定位分析;二级结构和结构域分析,以及根据结构域和蛋白家族预测蛋白的功能;表达谱分析

对于表达调控信息的分析:基因在染色体上的定位;翻译起始位点、剪切位点转录调控元件(原核、真核);甲基化修饰位点(CpG island)、miRNA基因---表观遗传学

一、正向酵母双杂交

酵母双杂交系统由Fields 和Song 首先提出,主要应用于研究蛋白质之间的相互作用,它的建立得益于对真核生物转录起始过程的认识。

GAL4蛋白即是一种典型的转录因子。GAL4的DNA结合结构域 (binding domain, BD) 靠近羧基端,含有几个锌指结构,结合酵母半乳糖苷酶的上游激活位点(UAS)。

而GAL4的转录激活结构域 (activation domain, AD) 可与RNA 聚合酶或转录因子TFIID相互作用,提高RNA 聚合酶的活性。

单独的BD或AD,都不足以激活转录,必须两者的结合才行。

二个结构域可在其连接区适当部位打开,仍具有各自的功能,而且可重建发挥转录激活作用。

如果X蛋白与BD融合形成“诱饵” (bait)蛋白、Y蛋白与AD融合形成“猎物” (prey)蛋白后,能形成转录激活复合物激活转录因子并激活报告基因的表达,就可证明X蛋白和Y蛋白之间存在相互作用。

双杂交系统的另一个重要的元件是报道株。报道株指经改造的、含报道基因的重组质粒的宿主细胞。最常用的是酵母细胞,酵母细胞作为报道株的酵母双杂交系统具有许多优点:

①易于转化、便于回收扩增质粒;

②具有可直接进行选择的标记基因和特征性报道基因;

③酵母的内源性蛋白来源于哺乳动物的蛋白结合。

β-半乳糖苷酶LacZ作为报道基因,并且在该基因的上游调控区引入受Gal4蛋白调控的GAL1序列。这个改造过的LacZ基因被整合到酵母染色体URA3位点上。而酵母的GAL4基因和GAL80基因(Gal80是Gal4的负调控因子)需缺失,从而排除了细胞内源调控因子的影响。

酵母双杂交系统的优点

采用高拷贝和强启动子的表达载体使杂合蛋白过量表达,且避免蛋白质纯化过程;

检测在活细胞内进行,体现真核细胞内真实情况;

可检测存在于蛋白质之间的微弱的或暂时的相互作用;

可采用不同组织、器官、细胞类型和分化时期材料构建cDNA文库;

易于转化、便于回收扩增质粒;

具有可直接进行选择的标记基因和特征性报道基因;

酵母的内源性蛋白不易同来源于哺乳动物的蛋白结合。

酵母双杂交系统的局限性

只能检测定位于细胞核内的蛋白质间相互作用

“假阳性” :某些蛋白本身具有激活转录功能

融合蛋白会影响蛋白的真实结构和功能

“假阴性”:不利于核外蛋白研究

酵母有a接合型和α接合型,这两种单倍体之间接合(mating)能形成二倍体,但相同接合型之间不能接合形成二倍体。根据酵母有性生殖的这一特点,将文库质粒转化α接合型酵母细胞,“诱饵”表达载体转化a接合型细胞。然后分别铺筛选平板使细胞长成菌苔(lawn),再将两种菌苔复印到同一个三重筛选平板上,原则上只有诱饵和靶蛋白发生了相互作用的二倍体细胞才能在此平板上生长。单倍体细胞或虽然是二倍体细胞但DB融合蛋白和AD融合蛋白不相互作用的都被淘汰。长出来的克隆进一步通过β-半乳糖苷酶活力进行鉴定。

二、反向酵母双杂交

构建一种反向筛选的报告基因,蛋白质间相互作用激活报告基因表达,使细胞不能存活。

关键是报道基因URA3,它编码的酶是尿嘧啶合成的关键酶。该酶能把5-氟乳清酸(5-FOA)转化成对细胞有毒的物质。改造的酵母菌株在缺乏尿嘧啶的选择性培养基上,只有当“诱饵”和“猎物”相互作用激活URA3基因的

表达才能生长。在含有5-FOA的完全培养基上“诱饵”和“猎物”的相互作用则抑制细胞的生长。

三、SOS招募系统 (细胞质中的双杂系统)

四、泛素系统

泛素系统优点

转录因子容易进入核内;报道蛋白可以是酶,可通过分析酶活性分析蛋白质间相互作用

一、免疫共沉淀技术原理

细胞裂解后在非变性条件下制备总蛋白提取物。以一种蛋白的抗体(结合于固相亲和介质)特异地免疫沉淀这种蛋白,然后用第二种蛋白或更多种蛋白的抗体做免疫印迹,检测它们是否被第一种蛋白共沉淀。

1、分子生物学的三大核心数据库是什么?它们各有何特点?

GenBank核酸序列数据库;SWISS-PROT蛋白质序列数据库;PDB生物大分子结构数据库;

2、简述生物信息学的发生和发展。

20世纪50年代,生物信息学开始孕育;

20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来;

20世纪70年代,生物信息学的真正开端;

20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方;

20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库;

20世纪90年代后,HGP促进生物信息学的迅速发展。

3、生物信息学的主要方法和技术是什么?

数学统计方法;动态规划方法;机器学习与模式识别技术;数据库技术及数据挖掘;人工神经网络技术;专家系统;分子模型化技术;量子力学和分子力学计算;生物分子的计算机模拟;因特网(Internet)技术

4、常见的DNA测序方法有哪些?各有何技术特点和优缺点?

Maxam-Gilbert DNA化学降解法 Sanger双脱氧链终止法 焦磷酸测序:

优点:可测完全未知序列及CG富含区;简便,可测较长片段; 廉价、高通量;

缺点:操作繁琐; 需已知部分序列或加接头; 一次测序片段短

5、分子生物学数据库有哪些类型?各有何特点?

基因组数据库:基因组测序 核酸序列数据库:核酸序列测定 一次数据库:蛋白质序列数据库:蛋白质序列测定。生物大分子(蛋白质)三维结构数据库:X-衍射和核磁共振 特点:数量少,容量大,更新快

二次数据库:上述四类数据库和文献资料为基础构建

特点:数量多,容量小,更新慢

6、简述NCBI Entrez系统的功能。

高级检索系统;查找核酸、蛋白、文献、结构、基因组序列、大分子三维结构、突变数据、探针序列、单核苷酸多态性等数据。

7、简述NCBI BLAST的功能和种类。

序列相似性比对工具;

对核酸:普通blastn,对高度相似序列megablast;

对蛋白质:普通blastp,对保守域rpsblast;

对人工翻译序列:核酸翻译序列对蛋白质序列blastx,蛋白质对翻译序列tblastn,核酸翻译序列对翻译序列tblast 其它:基因组blast,基因表达序列搜索GEO blast,序列两两比对??

1、什么是生物信息学?生物信息学有哪些主要应用领域?

生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。

生物分子数据的收集与管理;数据库搜索及序列比较;基因组序列分析;基因表达数据的分析与处理;蛋白质结构预测。

2、生物信息学在医药领域有什么应用?

辅助诊断(遗传病,HLA分型);研究药物作用机制,辅助新药物开发和制造。

3、人类基因组计划中主要使用的那些生物信息学手段?它们对人类基因组计划发挥了哪些重大作用?

单一测序结果判读;contig和chromosome拼接;识别基因区及其调控区;寻找基因相互作用的时空关系;

4、试述蛋白质二级结构预测的主要策略和方法。

策略:目标:判断每一段中心的残基是否处于a螺旋、b折叠、b转角(或其它状态)之一的二级结构态,即三态。 a、理论分析法(从头计算法):通过理论计算(分子力学、分子动力学等)进行结构预测。优点:不需要经验数据,由一级结构推测高级结构

缺点:天然和未折叠蛋白间能级差很小 (kcal/mol);蛋白质可能的构想空间庞大,针对蛋白质折叠的计算量巨大;计算模型中力场参数不准确。

b、统计方法:对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而根据映射模型对未知结构的蛋白质直接从氨基酸预测结构。经验性方法:根据一定序列形成一定结构的倾向进行结构预测。通过对已知结构的蛋白质进行统计分析,发现各种氨基酸形成不同二级结构的倾向,从而形成一系列关于二级结构预测的规律。

结构规律提取方法:从蛋白质结构数据库中提取关于蛋白质结构形成的一般性规律,指导建立未知结构的蛋白质模型。同源模型化方法:通过同源序列分析或模式匹配,预测蛋白质的空间结构或结构单元。

方法:1、Chou-Fasman方法;(基于单个氨基酸残基统计的经验参数方法,由Chou 和Fasman在20世纪70年代提出来。通过统计分析,获得每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。)2、GOR方法;(是一种基于信息论和贝叶斯统计学的方法GOR将蛋白质序列当作一连串的信息值来处理;

GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响)

3、基于氨基酸疏水性的方法;

4、最邻近方法;

5、人工神经网络方法; 6、综合方法:7、利用进化信息预测蛋白质的二级结构。

①HMM用来序列分析、产生概形HMM,分析序列组成和模式并通过预测开放阅读框(Open Reading Frame ,ORF)

来定位基因及预测蛋白质结构。

原理:先产生一个序列家族模型,并先验信息初始化,然后用一组序列(序列条数≥20)来训练HMM模型。训练

过程来定位基因及预测蛋白质结构。

优点:植根于概率论,无论序列的顺序信息,无需插入缺失和罚分,可以用到很多先验信息。

缺点:需要至少20条序列,有时需要更多才能了解进化历史。

一、简述DNA计算机的基本原理:

(1)以编码生命信息的遗传物质—DNA序列,作为信息编码的载体,利用DNA分子的双螺旋结构和碱基互补配对的

性质,将所要处理的问题映射为特定的DNA分子;

(2)在生物酶的作用下,通过可控的生化反应生成问题的解空间;最后利用各种现代分子生物技术如聚合酶链反应

RCR、超声波降解、亲和层析、分子纯化、电泳、磁珠分离等手段破获运算结果。

编码 操作

问题————→DNA分子链————→结果(DNA分子链)

二、简述DNA计算实现方式中,表面方式与试管方式相比具有哪些优点?

(1)操作简单,易于实现自动化操作;

(2)减少人为操作过程中造成的DNA分子的丢失及其它操作失误;

(3)减少分子在表面上的相互作用,同时增强分子间的特异性结合;

(4)信息储存密度大,据估计,10毫克DNA表面上的储存密度是传统计算姬的10的8次方倍,而在溶液中仅为10

的5次方倍;

(5)结果易于纯化。

三、简述生物类的数据库类别分为有哪两种及其定义

一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释(投稿文章首先要

将核苷酸序列或蛋白质序列提交到相应的数据库中)

二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对

特定的应用目标而建立的。

四、简述KEGG的PATHWAYS数据库中包括的哪6种数据库?

GENES/SSDB/KO databases/COMPOUND/GLYCAN/REACTION

五、系统发育树的构建步骤是什么?

①多序列比对(自动比对、手工比对)②建立取代模型(建树的方法)③建立进化树④进化树的评估

六、简述构建系统发育树中UPGMA方法(非加权组平均法)的步骤

生物信息学考试题

dAB表示物种A和B之间的距离(可以是失配核苷酸数目和总位点数目的比值)。以此类推dAC,dCD。

(2)将假设的两个距离最近的物种合成一个复合物种组(这里假设距离矩阵中的最小值为dAB)

(3)第一次聚类后更新距离矩阵,计算组(AB)和物种C和D间距离d(AB)C=1/2(dAB+dBC),d(AB)D=1/2(dAD+dBD)

(4)将新的距离矩阵中的距离最小的两个物种再次合成一个复合物种组。

(5)重复(3)(4)步骤,直到所有物种均聚为一类。 七、简述人工神经网络预测蛋白质二级结构的基本步骤。

(1)输入数据(来自PDB)(2)产生一个神经网络(一个计算程序)(3)用已知的蛋白质二级结构来训练这个模型(4)由训练好的模型来给出未知蛋白的一个可能的结构(5)最后从生物角度来检验预测的一系列氨基酸是否合理

八、简述在蛋白质三级结构预测中同源建模法的步骤。

(1)搜索与目标蛋白序列相似的模板蛋白(2)目标序列与模板序列比对(3)建立骨架(将模板结构叠加起来,找结构保守区域)(4)构建目标蛋白质的侧链(5)构建目标蛋白质的环区(从已知的环区构象中选出一最优的构象)

(6)优化模型(找出结构中异常的构象)

⑨、简述PCR引物设计的基本原则及其注意要点

原则:首先引物与模板的序列要紧密互补,其次引物与引物之间避免形成稳定的二聚体或发夹结构,再次引物不能再模板的非等位点引发DNA聚合反应(即错配)。

注意要点:1、引物的长度一般为15-30bp,常用的是18-27bp,但不应大于38,因为过长会导致其延伸温度大于74℃,不适合于TaqDNA聚合酶进行反应。

2、引物序列在模板内应当没有相似性较高,尤其是3’端相似性较高的序列,否则容易导致错配。引物3’端出现3个以上的连续碱基,如GGG或CCC,也会使错误引发几率增加。

3、引物3’端的末位碱基对Taq酶的DNA合成效率有较大的影响。不同的末位碱基在错配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3’端使用碱基。另外,引物二聚体或发夹结构也可能导致PCR反应失败。5’端序列对PCR影响不太大,因此常用来引进修饰位点或标记物。

4、引物序列的GC含量一般为40-60%,过高或过低都不利于引发反应。上下游引物的GC含量不能相差太大。

5、引物所对应模板位置序列的Tm值在72℃左右可使复性条件最佳。Tm值的计算有很多种方法,如按公式Tm=4(G+C)+2(A+T),在Oligo软件中使用的是最邻近法(thenearestneighbormethod)。

6、G值是指DNA双链形成所需的自由能,该值反映了双链结构内部碱基对的相对稳定性。应当选用3’端G值较低(绝对值不超过9),而在5’端和中间G值相对较高的引物。引物的3’端的G值过高,容易在错配位点形成双链结构并引发DNA聚合反应。

7、引物二聚体及发夹结构的能值过高(超过4.5kcal/mol)易导致产生引物二聚体带,并且降低引物有效浓度而使PCR反应不能正常进行。

8、对引物的修饰一般是在5’端增加酶切位点,应根据下一步实验中要插入PCR产物的载体的相应序列而确定。

十、简述常用的引物设计软件的名称和各自特点。

首先是引物分析评论功能,该功能只有少数商业版软件能够做到,其中以“Oligo6”最优秀;其次是引物的自动搜索功能,各种软件在这方面的侧重点不同,因此自动搜索的结果也不尽相同。自动搜索功能以“PremierPrimer”为最强且方便实用,“Oligo6”其次,其他软件如“VectorNTISuit”、“Dnasis”、“Omiga”和“Dnastar”都带有引物自

动搜索功能,但搜索结果不是十分理想。要想得到效果很好的引物,在自动搜索的基础上还要辅以人工分析。

十一、假设你得到一段未知基因的DNA序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知基因的功能和家族类别(包括系统发育树构建)

1、得到未知基因的DNA序列,用Blast做序列比对,找出与其基因相似的核苷酸序列和蛋白质序列。

2、接着,用搜索出来的较相似的序列用ClustW进行多序列比对,得到该序列的保守情况和突变情况。

3、最后用距离法构建系统发育树。

十二、假设你得到一段未知蛋白的氨基酸序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知蛋白的功能和家族类别以及其结构预测。

1、用该序列进行BLASTP搜索。

2、再对其进行蛋白质结构域、功能域的搜索,可以用Znterproscan、Pfam,并对其进行结构分析。

3、再用ClustW进行多序列比对。

4、用人工神经网络的方法对其结构进行结构预测。

生物信息学的主要方法和技术是什么?

答: 数学统计方法;动态规划方法;机器学习与模式识别技术;数据库技术及数据挖掘;人工神 经网络技术;专家系统;分子模型化技术;量子力学和分子力学计算;生物分子的计算机模 拟;因特网(Internet)技术 。

8. 简述人工神经网络预测蛋白质二级结构的基本步骤。

(1)输入数据(来自 PDB) (2)产生一个神经网络(一个计算程序) (3)用已知的蛋白 质二级结构来训练这个模型 (4)由训练好的模型来给出未知蛋白的一个可能的结构 (5)最后从生物角度来检验预测的一系列氨基酸是否合理

分子途径和网络的特点: 1)分子途径和网络 分子途径和网络的结构随意性大。图可以很简单, 分子途径和网络的特点: (1)分子途径和网络 以非常复杂。它们可能包含了多个分支,盘绕的连接和回路。 (2)它们通常也显示出 2)它们通常也显示出 它们通常也显示出节点 间关系的方向, 例如表示出代谢通路或信号传导的方向。 调控途径和网络的图也应该说明相 互作用是正的还是负的。 正的相互作用(促进或者活化作用)常常用箭头表示, 而负的交互效 应(抑制或者失活作用)常常用 T 型棒表示。

BLAST 的五个子程序 :(1)Blastp,用蛋白质查询蛋白质序列,可以找到具有远源进化 , 关系的匹配序列,方法是用待搜索蛋白序列与蛋白数据库比较。 (2)Blastn,用核苷酸查询核苷酸序列,适合寻找分值较高的匹配,不适合远源关系,待搜索核酸序列与核 酸数据库比较 (3)Blastx,用蛋白质查询已翻译核苷酸序列,适合新 DNA 序列和 EST序列的分析, 将待搜索核酸序列按 6 个读框翻译成蛋白质序列, 然后与数据库中的蛋白质比较。 (4)Tblastn,用已翻译核苷酸查询蛋白质,适合寻找数据库中尚未标注的编码区,将数据库中核酸序列按 6 个读框翻译成蛋白序列,然后与待搜索蛋白序列对比。( 5 ) Tblastx,用已翻译核苷酸查询已翻译核苷酸序列。适合分析 EST 序列,无论是待搜索核 , 酸序列还是数据库中核酸序列,都按 6 个读框翻译成蛋白序列。

PSI-Blast 的原理:是一种将双序列比对和多序列比对结合在一起的数据库搜索方法。 其主要思想是通过多次迭代找出最佳结果。 每次迭代都发现一些中间序列, 用于在接下去的 迭代中寻找查询序列的更多疏远相关序列(拓展了序列进化关系的覆盖面积) 具体做法是 。具体做法是 最初对查询序列进行 BLAST 搜索。接着把这次查找得到的每一击中项(高于选择的 E 值的 选项)作为 BLAST 搜索第二次迭代的查询序列。第二次迭代应该找到比最初查询序列更多 的进化关系,重复(迭代)这个过程直到找不到有意义的相似序列为止。

1、基于核酸和蛋白质序列如何研究生物进化?2、主要步骤是什么?3、当前的主要困难是什么?

参考答案:1、构建系统进化树。2、主要步骤如下:A、序列相似性比较。就是将待研究序 列与 DNA 或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相 似的已知序列是什么。 完成这一工作只需要使用两两序列比较算法。 常用的程序包有 BLAST、 FASTA 等;B、序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的 序列中进行多序列同时比较, 以确定该序列与其它序列间的同源性大小。 这是理论分析方法 中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有 CLUSTAL 等; C、构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为 完成这一工作已发展了多种软件包,象 PYLIP、MEGA 等;D、稳定性检验。为了检验构建好 的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只 有以大概率(70%以上)出现的分支点才是可靠的。通用的方法使用 Bootstrap 算法,相应 的软件已包括在构建系统进化树所用的软件包当中。3、当前的主要困难是发现了基因的横 向迁移(LGT)现象。即进

化程度不同的物种间存在着遗传信息基因的传递,如果拿迁移的 基因做进化分析就会出错。 克服 LGT 的方法: 一是在所有序列中筛选出有垂直进化关系的序 列数据集,如 COG 数据库;二是用完整的基因组和蛋白质组比较。 什么叫 SNP?为什么 SNP 研究如此重要?举 2-3 个 SNP 相关的 website。

参考答案:1、SNP 本意是单核苷酸多态性,泛指基因组上一个碱基的取代,现在有所扩展, 也包括一些更广泛的变化,例如 2-3 个碱基的变化也叫 SNP。2、SNP 是联系基因型和表现 型之间关系的桥梁,是基因组领域理论成果和基础研究走向应用的关键步骤。3、SNP 相关的一些网站:1、SNP Consortium's database(/index.html) 2、NCBI SNP database 将这些数据进行整理,去掉冗余,使每个 SNP 都是唯一的。此时的 SNP 被称为 reference SNP 或 refSNP。 ((http://www.ncbi.nlm.nih.gov/SNP/overview.html) 3、The Human Genic Bi-Allelic Sequences Database(HGBASE) 这一数据库收录了人基因组中所有已知的序列 变化,包括:SNPs、序列的插入和缺失(Indels)、简单重复序列等。 (http://hgbase.cgr.ki.se/) 4、 Human Gene Mutation Database The (HGMD) (/) 5、 Protein Mutant The Database(PMD),它不是核酸突变数据库,而是蛋白突变数据库。库中收录了蛋白质特定位 点的氨基酸突变信息,以及这些突变对蛋白质结构功能的影响。(http://pmd.ddbj.nig.ac.jp/) 6 、The Allele Frequency Database(ALFRED) : 它 是 人 类 群 体 等 位 基 因 频 率 数 据 库 , http://alfred.med.yale.edu/alfred/index.asp。

有哪些数据库可以发现新基因,其本质是什么?

参考答案:大部分新基因是靠理论方法预测出来的。 a)、利用 NCBI 中 EST( Expression Sequence Tag) 数据库 (dbEST) 发现新基因和新 SNPs。国际 上现已出现了几个基于 EST 的基因索引如 UniGene, Merck-Gene, GenExpress-index . 其本 质是:以一个序列片段为线索, 通过它和整个数据库的比较, 还原出全序列原貌。 当测序获 得一条 EST 序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因 的不同 EST 序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的 所有 EST 序列,进而将它们拼接成和完整基因相对应的全长 cDNA 序列。 b)、从基因组 DNA 序列中预测新 ORF。基于信号或基于组成。

核苷酸和蛋白质序列为基础的数据库检索 ?

1. 了解 BLAST Frequently Asked Questions 的答案。

2. 以大麦 Mlo 基因(Z83834)为查询序列

(1) 用 Blastn 能检索到多少条与 Mlo 同源的序列?

与 Mlo 同源的序列:共找到 63 条与 Mlo 同源的序列

(2) 在使用 Blastn 检索中,如改变 E value 的阈值,能检索到多少与 Mlo 同源的 序列?

将 E value (Expect threshold)由默认的 10 改为 1 时,仍有 63 条同源序列。若将 E 值改为 5e-19 时可以找到 61 条同源序列。

(3) 怎样去掉 alignment 过程中出现的小写字母? 这里所说的小写字母就是出现重复序列时被算法筛选后出现的 n。将 Algorithm parameters 中的 Filters and Masking 选项里的 Low complexity regions 前的勾去掉 就可以去掉比对过程中出现的小写的 n。

(4) 用 PSI-BLAST 检索到的与 Mlo 蛋白同源的序列与用 Blastp 检索到的同源序 列是否有差别? PSI-BLAST 的特色是每次用 profile 搜索数据库后再利用搜索的结果重新构建 profile,然后用新的 profile 再次搜索数据库,如此反复直至没有新的结果产生为 止。PSI-BLAST 先用带空位的 BLAST 搜索数据库,将 获得的序列通过多序列 比对来构建第一个 profile。PSI-BLAST 自然地拓展了 BLAST 方法,能寻找蛋白 质序列中的隐含模式,有研究表明这种方 法可以有效的找到很多序列差异较大 而结构功能相似的相关蛋白,甚至可以与一些结构比对方法,如 threading 相媲 美。PSI-BLAST 服务可以在 NCBI 的 BLAST 主页上找到,还可以从 NCBI 的 FTP 服务器上下载 PSI-BLAST 的独立程序。首先得到 Mlo 的蛋白质序列: CAB06083.1;然后用 blastp 检索。选中 PSI-BLAST。第一次检索得到 100 个同 源序列,再以这些序列为基础,再次检索,得到标有 new 的序列。第三次检索, 已经没有含有 new 的序列,检索结束。 (5) 熟悉 PHI-BLAST 检索方法。 (6) 用 Mlo 基因序列检索蛋白质数据库能找到多少同源序列? 使用 BLASTX,输入 accession number :Z83834,找到 100 个同源序列 3. 从以 Mlo 基因的氨基酸序列检索到的同源序列中任取两条序列, 用 BLAST 2 sequences 作分析,看它们之间是否存在同源序列。

Mlo 基因氨基酸序列号:CAB06083 选取两条为:P93766、AAK94905 可以看到具有较高的同源性。 Identities = 397/432 (91%), Positives = 412/432 (95%) .

多序列对位排列分析和系谱分析

用大麦 Mlo 基因(Z83834)编码的蛋白质序列在数据库中检索同源序列,找出 与 Mlo 同源程度最高的另外 9 条序列。对位排列这 10 条序列,确定这些同源序 列的保守区段; 分析这些保守区段是否组成已知结构域 (domain) 或模体 (motif) 。

1. 在 NCBI 中的 nucleotide 数据库中输入 Z83834,点击链接到蛋白质序列,用 FASTA 格式输出,复制该蛋白序列 2. 进入 NCBI 的 BLAST,选择 protein blast,粘贴所复制的蛋白序列,进行 blast .。

3.在结果中选中同源度最高的 10 条结果,点击 get selected sequences 。

4.在 display 中选则 FASTA,send to 中选则 text,复制有内容。

5.在 EBI 的 ClustaW 分析网页粘贴序列,点击 run 。

用大麦 Mlo 基因(Z83834)序列检索数据库,找出与 Mlo 同源程度最高的另外

4 条序列。对位排列这 5 条序列,确定这些同源序列的保守区段;分析这些保守 区段是否组成已知结构域(domain)或模体(motif)。

1. 进入 NCBI 的 BLAST, 选择 nucleotide blast,粘贴基因序列号 Z83834,进行 blast

2. 在结果中选中同源度最高的 5 条结果,点击 get selected sequences

3. 在 display 中选则 FASTA,send to 中选则 text,复制所有内容。

4. 在 EBI 的 ClustaW 分析网页粘贴序列,点击 run 。

1. OsPK7 基因的注册号?它来源于什么物种? (6 分) 基因的注册号?它来源于什么物种? 2. OsPK7 编码的蛋白质包含有多少个氨基酸?是否为跨膜蛋白?该蛋白可 编码的蛋白质包含有多少个氨基酸?是否为跨膜蛋白? 能位于细胞的什么部位? 能位于细胞的什么部位 3、分离克隆 OsPK7 基因的工作发表在什么杂志上?杂志卷号、页码、年份 、 基因的工作发表在什么杂志上?杂志卷号、页码、年份?

1. 答题要点答题要:

(1)AB011968,来源自水稻。

(2)520 aa;不是跨膜蛋白;可能是位于细胞外的可溶性蛋白。 ) ;不是跨膜蛋白;可能是位于细胞外的可溶性蛋白。 (3)文章发表在 Mol. Gen. Genet.;2000 年 263 期 359-366 页。 ) ;

详细:

方 法 : NCBI 主 页 — — nucleotide 中 输 入 基 因 名 — — 查 找 注 册 号 ( ACCESSION 为 AB011968)及来源(ORGANISM 为 Oryza sativa (rice))——查找其蛋白质注 (rice))——查找其蛋白质注 )及来源( ——点击 册号即点击 protein_id 结果为 BAA83689) ( ) ——点击 PubMed 即可得到发表该基因的文章: (Mol Gen Genet. 2000 Mar;263(2):359-66.)( 或在 PubMed 上面一排的 JOURNAL JOURNAL 就可以得到发表文章)

是否为跨膜蛋白

方法:

1、ExPASy 主页 (http://www.expasy.ch/) 、 选择 topology prediction

2、在“Topology prediction”栏目选择 栏目选择“SOSUI”分析工具 、 栏目选择 分析工具

3、在 SOSUI 主页选择分析 主页选择分析 选择分析“SOSUI”分析软件 、 分析软件

4、在 SOSUI:Submit a protein sequence 网页粘贴序列(将 display 改为 fasta 网页粘贴序列( 、 : 格式在复制粘贴,可能有时候粘贴时要不粘第一排) 格式在复制粘贴,可能有时候粘贴时要不粘第一排)

5、分析结果(This amino acid sequence is of a SOLUBLE PROTEIN) 、分析结果 ) 蛋白质定位:

蛋白质定位:

1、ExPASy 主页选择 topology prediction 、

2、“Topology prediction”栏目选择 栏目选择“PSORT” 软件分析蛋白质在细胞中的定位 、 在 栏目选择

3、在 PSORT 网页选择分析方法,如选择 WoLF PSORT 网页选择分析方法 选择分析方法, 、

4、选择物种,粘贴序列(将 display 改为 fasta 格式在复制粘贴,可能有时候粘 ( 贴时要不粘第一排)

5、分析结果 、分析结果

通过一个具体实例分析,说明利用生物信息学进行 DNA 序列分析鉴定的策略

(1)慢性粒细胞性白血病 WT1 基因

答: WT1 基因是人体内一个复杂的基因,它在一些恶性肿瘤患者体内呈现有规律的表达,这 使它一直成为多年来研究的热点.WT1 在人类多数急性白血病(AL)细胞异常地高表达,而在 正常人的骨髓则无表达或极微量表达。.

(2)在 NCBI 上查询 WT1 基因

(3)在“Top Organisms(Tree) ”里选择“Homo sapiens”

(4)选择第 8 条记录结果并打开

(5)用 RepeatMasker 分析和屏蔽重复序列,结果没有重复序列,

(6) 通过 NCBI / VecScreen 在线分析载体污染, 结果为 “No significant similarity found” , 说明无载体污染 详细步骤: ①将序列贴入,并点击【Run VecScreen】按钮,结果如下。

②点击 【View report 】按钮,结果如下。 “No significant similarity found” ,说明无载体污染

(7)通过“NCBI / ORF Finder”在线分析得开放阅读框如下图所示: (网址 http://www.ncbi.nlm.nih.gov/gorf/gorf.html) 单击 OrfFind 按钮,得到如下结果:

(8)采用 BDGP:Neural Network Promoter Prediction 来预测该序列的启动子,可通 过 Home(BDGP)→ Software Tools(Analysis Tools)→ Promoter Prediction 程序进入 该网站。该网站能预测人和果蝇的启动子,预测结果如下: (网址 /seq_tools/promoter.html

通过一个具体的实例分析,说明利用生物信息学进行蛋白质结构研究的策略,要求 通过一个具体的实例分析,说明利用生物信息学进行蛋白质结构研究的策略,( 最终得到蛋白质 3D 建模结果) 。

答:1982 年 Prusiner(布鲁西纳)从仓鼠中分离出了一种蛋白质因子,它具有感染性, 是绵羊瘙痒病和库鲁症等致命疾病的致病因子。 后来的研究发现, 在神经突触膜上有一种穿 膜糖蛋白,肽链中富含α螺旋,它是 Prnp 基因的正常表达产物,是 prion 的前身物。prion 肽链中富含β折叠,是致病因子,具有感染性。组成 prion 的物质是不含核酸的蛋白质,这种蛋白质称为 prion 蛋白质(prion protein) 。

本题以 prion 蛋白质为例,利用生物信息学进行蛋白质结构研究。

(1) 利用 BioEdit 软件分析 Prion 的氨基酸组成: Sequence → Protein → Amino Acid Composition,结果如下。

(2)利用 BioEdit 软件分析 Prion 的亲水性(hydrophilicity)、疏水性 (Hydrophobicity)情况:Sequence → Protein → Kyte &; Doolittle Scale Mean Hydrophobicity Profile

(3)NCBI → Blast → bBlast(蛋白对蛋白的)??可分别得该 Prion 的保守结构域

(4)利用“Motif Scan”网站对 Prion 蛋白质进行motif 结构分析

(5)利用“Prosite”网站对Prion 蛋白质进行motif 结构分析

(6)利用 PredictProtein 网站对人 Prion Protien 序列的二级结构预测

(7)利用 Swiss-Model 网站对 Prion 蛋白进行高级结构预测和同源建模:Modeling→ myWorkplace→Automated Mode,使用 rasmol 软件能使蛋白空间结构可视化。

以一个基因或者酶蛋白,查询 10 个物种以上此基因或者酶蛋白的序列, 用本地软件做系统树分析( 答:在这里仍以 Prion 蛋白为例做系统树分析,步骤如下:

(1)从 NCBI 查询 Prion 蛋白序列,下载其中 12 个物种的,以“fasta 格式”格式保存;

(2)对下载的每个序列用记事本打开,检查序列的格式是否统一,并复制、粘贴到其中任 意一个文件里;

(3)在 MEGA 界面中,选择 Alignment→ Alignment Explorer/CLUSTAL,出现下面的对话框:单击“OK” ,出现如下选择框,在此我选择“Create a new alignment” 单击“OK” 。 , 出现如下选择框:单击“NO”即可。

(4)在 M4 界面中,单击 Date → Open → Retrieve Sequences from File ,选择已 保存的 FASTA 格式文件;

(5)在 M4 界面中,双击文件名可以进行修改,然后右键菜单点击删除 Clustal X 中附 带 “※”的行,然后点击 Ctrl+A 选中所有序列,依次点击 Alignment→Align by ClustalW →出现的界面点击 OK;

(6)在 M4 界面中,选择 Data → Expert Alignment → MEGAFormat(保存该文件并命 名),即把 FASTA 格式文件

相关推荐