生物信息学研究进展
施卫萍
(南京农业大学,江苏南京210095)
摘 要:生物信息学是采用计算机技术和信息论方法研究生命科学中各种生物信息的表达、采集、储存、传递、检
索、分析和解读的科学,是现代生命科学与信息科学、计算机科学、数学、统计学、物理学、化学等学科相互渗透而高度交叉形成的一门新兴前沿学科。本文对生物信息学的起源、研究内容及应用等进行了综述。关键词:生物信息学;蛋白质组学;基因组学
中图分类号Q811.4 文献标识码B 文章编号1007-7731(2009)10-032-003
Advanee in Research of BioinformoticsShi Weiping
(Nanjing Agricultural university, Nanjing210095, China)
Abstract: Bioinformatics is an interdisciplinary science developed by the interaction of modern biology, informatics, computer science, mathematics, statistics, physics and chemistry. It studied the collection, storage, transference search, analysis and translation of various biological information. The paper reviewd the origin, research contents and application of bioinformatics.
Key words: Bioinformatics; Proteomics; Genomics
1 生物信息学的起源
生物信息学是20世纪80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科。基因组学的出现始于1986年,美国Johns Hopkins大学著名人类遗传学家和内科教授McKusick创造了基因组学(Genomics)这个名词,意指从基因组水平研究遗传的学科。虽然基因组信息量在生物总信息量中占有极大的比重,但是,生物信息并不仅限于基因组信息,生物信息学也并不等同于基因组信息学。目前,我们普遍认为生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,找到代表蛋白质和DNA基因的编码区,特别是阐明非编码区的实质,从而认识生物有机体代谢、发育、分化和进化的规律;同时在发现了新基因信息之后进行蛋白质空间结构的模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。因此,现代生物信息学主要包括3个重要内容,它们分别是基因组信息学、蛋白质的结构模拟以及药物设计。
从20世纪90年代以来, 随着各种生物基因组测序计划的展开与分子结构测定技术的突破以及Internet的普及,无数的生物学数据如雨后春笋般迅速涌现。2001年2月12日,美国Celera公司与美国国家人类基因组计划分别在Science和Nature上公布了人类基因组的精细图谱及其初步分析结
果。2002年4月5日出版的Science杂志又把水稻基因组的序列框架图公布出来。2002年8月23日出版的Science杂志公布了河豚的全基因组序列。到目前为止,已经测出了上百种生物体的完整基因组序列。如何分析这些从实验过程中获得的大量原始数据, 并从中获得与生物结构、功能相关的有用信息是当前困扰理论生物学家的一个棘手问题。生物信息学(Bioinformatics)就是在此背景下发展起来的综合运用生物学、数学、统计学、物理学、化学、信息科学以及计算机科学等诸多学科的理论方法而形成的一门崭新交叉学科。
2 生物信息学在基因组学上的应用
基因是遗传信息的携带者,而生命活动的执行者却是蛋白质,即基因的表达产物。在基因组研究时代,对基因组信息学的研究内容主要有:一是基因组相关数据的收集与管理,即集中在结构基因组上。相应地由基因翻译成的初生蛋白质,经过一系列的修饰、加工和折叠形成了具有一定空间构象的蛋白质;二是对基因组数据内涵的分析与解释,也就是遗传密码的破译。在这一时期,生物信息学研究主要表现在以下几个方面:(1)序列比对。序列比对指对2个或多个序列进行比较,找出其相似性(Parra and Agarwal 2003)。(2)大规模基因测序中的信息分析。应用生物信息
作者简介:施卫萍(1987.06-),云南人,本科。 收稿日期:2009-03-28
安徽农学通报,Anhui Agri. Sci. Bull.2009,15(10)
33
的预测由于蛋白质折叠过程的复杂性变得更难,目前,在利用生物信息学对蛋白质三维空间结构预测方面的主要方法有同源模建、折叠识别和从头预测3种。一般先将目标蛋白与蛋白质结构数据库中的已知结构相比较,如果两者序列同源性较高,则可用同源模建方法对目标蛋白质的结构进行预测。同源模建方法在蛋白质结构预测及药物设计中起着重要的作用,如最近Olson et al.(2004)利用结构模建的方法对蓖麻毒素A链进行了改造,并得到了一种新的疫苗蛋白质的结构预测的信息(http://predictioncenter.llnl.gov)。在蛋白质的功能预测方面, 那些与已知DNA序列同源性较高的基因,对它们功能的预测较为简单,因为,具有相似性序列的蛋白质具有相似的功能。目前,常用的两个相似性搜索工具是BLAST和FASTA。FASTA可以有效地分析那些与数据库同源性较高的序列,但有时可能忽略一些评分不高的结果。BLAST是一个寻找序列间具有相似性的区段, 进而比较它们之间结构和功能的工具,而不是仅仅比较序列的同源性。BLAST的网址为http://www.ncbi.nlm.nih.gov/blast; FASTA的网址为http://www.ncbi.ac.uk/htbin /fasta。对那些同源性较低或没有序列同源性的基因,则可以运用生物信息学的手段,在蛋白质数据库中寻找有功能参考价值的同源序列,从而预测该基因的功能;或比较未知序列是否含有特殊蛋白质家族或功能的保守残基等来判定其功能(Pazos 2004),即通过多序列比对,将同源序列收集在一起, 以得到保守区域。而这些保守区域通常具有一定生物学意义,反映了蛋白质分子的一些重要结构功能。这些数据集合在一起就构成了蛋白质的功能数据库。目前常用的两个数据库为InterPro复合数据库和SMART数据库。它们各有优点,SMART数据库在功能标注方面性能更胜一筹。除了可以预测蛋白质的结构和功能以外,生物信息学也可以使蛋白质的理化性质得到预测。参考文献
[1]殷志祥.蛋白质结构预测方法的研究进展[J].计算机工程与应用, 2004.40:54-57.
[2]陈 竺.基因组科学与人类疾病[M].北京:科学出版社.2000.[3]Altschul SF. Madden TL. Schaffer AA. et al(1997).Gapped BLAST and PSI-BLAST: a new generation of protein database search prog- rams. Nucleic Acids Res 25:3 389-3 402.
[4]Apweiler R, Attwood TK, Bairoch A, et al(2001)The InterPro database, an integrated documentation resource for protein families, domains and functional sites. Nucleic Acids Res 29:37-40.[5]Baker D, Sali A(2001)Protein structure prediction and structural genomics. Science 294:93-96.
[6]Barker D, Pagel M(2005)Predicting functional gene links from phylogenetic - statistical analyses of whole genomes. Plos Comput Biol 1:98-103
[7]Califano A(2001)Advances in sequence analysis. Curr Opin Structural Biol 11:330-333.
[8]Fuchs R(2002)From sequence to biology: (下转216页)
学软件和数据库对大规模基因组测序中的相关信息进行分析处理,可以将大量的实验数据转变为可处理的数字信息(Fuchs 2002)。(3)大规模基因功能表达谱的分析。目前,基因组的研究已从结构基因组(structural genome)逐渐过渡到功能基因组(functional genome)。因此,获得基因的功能表达谱,将存在于人类基因组上的静的基因图谱向时间、空间维上展开,成为这一阶段基因组研究的核心,由此导致了大规模基因功能表达谱的分析问题,这都更强烈地依赖于生物信息学技术的发展(陈竺 2000)。(4)完整基因组的比较。在后基因组时代出现了越来越多的完整基因组, 对这些资料的研究产生了比较基因组学,它为研究和理解生物的进化、人类遗传病候选基因的分离以及新的基因功能的预测提供重要依据(Califano 2001)。(5)新基因和新的单核苷酸多态性的发现与鉴定新基因的发现、鉴定与确认, 有利于更好地了解和研究与其相关的生理功能或疾病,从而为新药的设计、开发奠定基础。(6)非编码区信息分析。很多文献表明,高等真核生物基因组中90%以上是非编码区, 他们大多都是具有重要生物功能的片段,参与基因在四维时空的表达调控。揭示他们的编码特征、调节方式和表达规律,对于全面了解基因组功能、基因调控网络构成及其作用方式必不可少。
3 生物信息学在蛋白质组学上的应用
目前,对蛋白质组研究的技术手段很多,常用的主要有双向凝胶电泳和测序质谱技术等。与它们相比,生物信息学在蛋白质组学的研究中将起着特殊的重要作用(Hagen 2001),其原因是蛋白质组研究提供的数据的数量之大在生物学上是史无前例的。当前生物信息学已不仅是高效地进行对蛋白质数据的分析,而且可以对已知的或新的基因产物进行全面的功能分析,对蛋白质的分析研究产生了蛋白质组信息学。蛋白质组信息学研究包括、蛋白质序列对齐、序列比较分析、蛋白质结构功能关系的研究、点突变的设计及家族鉴定、 蛋白质空间结构预测、建模和分子设计以及蛋白质功能预测等。例如,用生物信息学对用质谱得到的肽指纹图谱(peptide mass fingerprinting)数据进行分析,得出了一个新的在进化过程中保守的模序(moti)。它对蛋白质的结构和功能具有重要意义(Thongboonkerd and Klein 2004)。近期,生物信息学在研究蛋白质-蛋白质间的相互作用方面被广泛应用(Shi et al. 2005),而且其研究方法也在不断的改进(Barker and Pagel 2005)。在蛋白质的结构预测方面,由于蛋白质的生物学功能在很大程度上依赖于其空间结构,因而进行蛋白质的结构预测对了解未知蛋白生物学功能具有重要意义。而对蛋白质结构的预测离不开由许许多多的蛋白质数据形成的各种蛋白质数据库。蛋白质由氨基酸组成,它的结构层次包括一级结构、二级结构、三级结构和四级结构等。蛋白质空间结构预测就是利用已知的一级序列来构建其立体结构模型。目前,对单一序列的二级结构预测的准确率较高,通过多序列比对可以显著提高预测的效能,如PHDsec程序。对蛋白质三级结构
216
[2]
安徽农学通报,Anhui Agri. Sci. Bull.2009,15(10)
。开设综合性实验就是以学生为主体,教师指导为辅,让法,调整实验内容,把实验的注意事项及一些重点、难点加以强调和突出。这不仅避免了学生做实验时少走弯路,少出错误的毛病,而且还增强了他们的信心和创新精神。由于综合性实验不是两三个学时就能完成的,有时需要一整天或者更长的时间才能做完。这对实验技术人员提出了更高的要求,要求他们不但要保证实验室的全天开放,而且要保障每个实验的正常开出及安全性问题。鉴于此,实验技术人员要更新管理思想和模式,优化实验室的资源配置,保证大型仪器的良好运行及常规器皿的充足供应,充分地挖掘实验室的潜力,促进实验室管理更加科学、规范化。力求使每个综合实验都能顺利地开展。
近年来,通过综合性实验在微生物学实验教学中的探索与实践,充分调动了学生的积极性、主动性和创造性,达到了事半功倍的效果。学生的操作能力、实验技能、科研素养和创新能力都得到了显著的提高,使他们能真正做到了学以致用,并且敢于实践和勇于创新。参考文献
[1]卜 宁,陶思源.实施“三高”教学,创建“微生物学实验”课程新体 系[J].微生物学通报,2006,33(1):169-172.
[2]李剑平,吴秀珍等.综合与设计性实验在微生物检验教学中的实 践[J].中国高等医学教育 ,2007,11:21-22.
(孔 爽编,马伟芝校)
每位学生自主设计实验方案、独立完成实验的准备工作,如棉塞的制作,玻璃器皿的包扎、灭菌及培养基、试剂的配制等,这些都是最基本也是最重要的操作技能。如果这其中的哪个环节出了问题,将会直接影响实验结果。这就要求学生有扎实的微生物学实验基本功底和较高的实验操作技能。俗话说的好,熟能生巧。如果前面的基础知识和基本的实验技能没有熟练掌握,那么后面的综合实验也是纸上谈兵,无法付诸实施。所以前面要对实验进行整合,并且要求教师改变教学方法,其目的就是把节省下来的学时,用于强化实验操作技能的训练,为开展综合实验做必要的准备。我们可以针对不同的专业开设不同的综合性实验,旨在全方位地提高学生的综合实验技能,使得他们学有所长,学有所用。如我们为食品相关专业设计了从市售的酸奶中分离保加利亚乳杆菌和嗜热链球菌,并自制酸奶的综合性实验。这实验涉及到了MRS培养基的制备,微生物的分离、纯化和培养,细菌染色、鉴别和发酵等技术。学生通过做实验,不仅熟悉了微生物学这门学科系统的知识结构,而且培养了他们独立思考,勇于实践,敢于创新的精神。
为了确保综合性实验的开出质量与效率,这就要求从事微生物学实验的教师更新教育观念,改变实验教学方
(上接33页) the impact on bioinformatics . Bioinformatics 18: 505- 506.
[9]Geff SA,Ricke D, Lan TH, et al(2002)A draft sequence of the rice genome(Oryza sativa L. ssp. Japonica). Science 296:92 - 100.
[10]Hagen JB(2000)The origins of bioinformatics. Nat Rev Genet 1:231-236
[11]Humphery-Smith I, Cordwell SJ, Blackstock WP(1997)Proteome research:complementarity and limitations with respect to the RNA and DNA worlds. Electrophoresis 18 1 217-1 242.[12]International Human Genome Sequencing Consortium (2001) Initial sequencing and analysis of the human genome. Nature 40: 860-921
[13]Letunic I, Goodstadt L, Dickens NJ, et al(2002)Recent improvements to the SMART domain-based sequence annotation resource. Nucleic Acids Res 30:242-244.
[14]Mulder NJ, Apweiler R, Attwood TK(2005)InterPro, progress and status in 2005.Nucleic Acids Res 33(Database Issue):201- 205.
[15]Olson MA, Carra JH, Roxas-Duncan V, et al (2004)Finding a new vaccine in the ricin protein fold. Protein Eng Des Sel 17:391- 397.
[16]Parra G, Agarwal P, Abril JF(2003)Comparative gene predictio n in human and mouse.Genome Res 13:108-117.
[17]Pazos F, Stemberg MJ(2004)Automated prediction of protein function and detection of functional sites from structure. Proc Natl Acad Sci101:l4 754-14 759.
[18]Pearson WR(1991) Searching protein sequence libraries: com- parison of the sensitivity and selectivity of the Smith-Waterman and FASTA algorithms. Genomics 11:635-650.
[19]Samuel A, Jarrod C, Elia S, et al(2002)Whole genome shotgun assembly and analysis of the genome of Fugu rubripes. Science 297: 1 301-1 310.
[20]Shi TL,Li YX, Cai YD, et al(2005)Computational methods for protein-protein interaction and their application. Curr Protein Pept Sci 6:443-449.
[21]Siew N, Fischer D(2001)Convergent evolutions of protein structure prediction and computer chess tournaments: CASP, Kasparov and CAFASP. IBM Sys J 40:410-425.
[22]Thongboonkerd V, Klein JB(2004)Practical bioinformatics for proteomics. Contrib Nephrol 141:79-92.
[23]Tian Y, Lu XY(2002)Bioinformatics. Journal of Biology 19:11- 12.
[24]Venter JC, Adamsmd, Myers EW, et al(2001)The sequence of the human genome. Science 291:1 342-1 351.[25]Yu J, Hu SN, Wang J , et al(2002)A draft sequence of the rice genome(Oryza sativa L . ssp. Indica). Science 296:79-92.
(孔 爽编,徐爱民校)
因篇幅问题不能全部显示,请点此查看更多更全内容