生物信息学历史发展简述
生物信息学是80年代未随着人类基因组计划的启动而兴起的一门新的交叉学科。它涉及生物学、数学、计算机科学和工程学,依赖于上述学科的基础,依赖于生物实验和衍生数据的大量储存。
八十年代末期,林华安博士认识到将计算机科学与生物学结合起来的重要意义,把这个领域的名称取为“bio-informatics(或bio/informatics)”。由于当时电子邮件系统中-或/符号会引起许多系统问题,于是林博士将其去除,“bioinformatics”这一名称也就正式确定,林博士也因此被称为“生物信息学之父”。
从70年代初期到80年代初期,出现了一系列的序列比较方法,Needleman和Wunsch首先于1970年提出的序列比对算法,这是对生物信息学发展最重要的贡献(Needleman and Wunsch,1970)。同年,Gibbs和McIntyre发表的矩阵打点作图法,这也是在序列比较工作上的一个著名方法(Gibbs and McIntyre,1970)。之后,Dayhoff提出的基于点突变模型的PAM矩阵(Dayhoff 1969;Dayhoff et al.,1978)是第一个广泛使用的氨基酸相似性的打分矩阵,它大大地提高了序列比较算法的性能。Science期刊于1980年第209卷发表了关于计算分子生物学的综述。1981年Smith和Waterman提出了著名的公共子序列识别算法(Smith and Waterman,1981),同年,Doolittle(Doolittle,1981)提出关于序列模式(motif)的概念。1983年,Wilbur和Lipman发表了数据库相似序列搜索算法(Wilbur and Lipman,1983)。1985年,出现快速的蛋白质序列搜索算法FASTP/FASTN,1988年,Pearson和Lipman发表了著名的序列比较算法FASTA(Pearson and Lipman,1988)。1990年,快速相似序列搜索算法BLAST问世(Altschul et al.,1990),1997年,BLAST的改进版本PSI-BLAST投入实际应用(Altchul et al.,1997)。
在20世纪70年代,还不断涌现出许多生物信息分析方法。1972年,Gatlin将信息论引入序列分析,证实自然的生物分子序列是高度非随机的(Gatlin,1972)。1977年,出现了将DNA序列翻译成蛋白质序列的算法(Korn et al.,1977;McCallum and Smith,1977)。1975年,继第一批RNA(tRNA)序列的发表之后,Pipas和McMahon首先提出运用计算机技术预测RNA二级结构(Pipas and McMahon,1975)。1978年,Gingeras等人研制出核酸序列中限制性酶切位点的识别软件(Gingeras,1978)。
20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库。1982年核酸数据库GenBank第3版公开发行。1986年,日本核酸序列数据库DDBJ诞生。1986年,出现蛋白质数据库SWISS-PROT。1988年,美国国家卫生研究所和美国国家图书馆成立国家生物技术信息中心NCBI。同年,成立欧洲分子生物学网络(EMBnet),该网络专门发布各种生物数据库。
在20世纪90年代后,科学家们开始大规模的基因组研究。1986年,出现基因组学(Genomics)概念,即研究基因组的作图、测序和分析。1990年,国际人类基因组计划启动,该计划被誉为生命科学的“阿波罗登月计划”。1993年,成立Sanger中心,该中心专门从事基因组研究。1995年,第一个细菌基因组被完全测序,1996年,酵母基因组被完全测序。1996年,Affymetrix生产出第一块DNA芯片。1998年,第一个多细胞生物—线虫的基因组被完全测序。1999年,果蝇的基因组被完全测序。1999年年底,国际人类基因组计划联合研究小组宣布人类第一次获得一对完整人染色体——第22对染色体的遗传序列。2000年6月24日,人类基因组计划协作组的6个国家研究机构在全球同一时间宣布已完成人类基因组的工作框架图。
1995年,在美国人类基因组计划(HGP)第一个五年总结报告中给出了一个较为完整的生物信息学的定义:生信息学是包含生物信息的获取、处理、贮存、分发、分析和解
释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。
因篇幅问题不能全部显示,请点此查看更多更全内容