- A+
首先,用“领域”而不是“学科”来定义生物信息学,是因为关于生物信息学到底是不是一门学科,目前还存在一些争议。广义上说,学科是科学知识的分类,学科的存在需要有相对独立的知识体系,从这个意义上说,生物信息学在很多人眼中不能称为一门学科。因为生物信息学的知识体系相对来说较为开放,以计算机、数学、统计学、生物学等学科知识为基础,是一个高度交叉、高度开放、面向应用的专业领域。在我国的学科分类体系中,生物信息学目前仍属于二级学科,隶属于生物学一级学科或者信息科学一级学科,笔者也是从信息科学和生命科学两个学部申请国家自然科学基金项目的。然而从狭义上说,学科是对高等教育、科研等功能单位的定义,从这个层面理解,生物信息学又可以被称为一个学科。
其次,既然生物信息学是一个高度开放和交叉的领域,生物信息学到底有没有其本身特有的基本科学研究问题呢?我认为“也有,也没有”。回顾生物信息学的发展历史,早在1956年于美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨会”上就提出了生物信息学的概念,美籍学者林华安(Hwa A. Lim)博士于1987年首先创造并使用了“bioinformatics(生物信息学)”这个名词。20世纪80年代末,随着人类基因组计划启动,生物信息学开始兴起。在生物信息学诞生的阶段,是“有”其基础的研究问题的,这个基础的研究问题就是如何进行基因组数据的解读。具体来说,就是如何进行序列的比对,基因组的拼接、组装以及后续分析。为什么说这个问题是基础的研究问题呢?首先,这个问题在当时看,所有现有的学科、现有的技术手段都没法解决,是伴随着生命科学技术发展所产生的一个新的研究问题。传统的生命科学是实验科学,研究一个一个基因、一个一个蛋白,后来出现了基因组测序技术,突然有了三十亿个碱基的基因组数据量。那时虽然有实验技术,但是实验技术不能立刻解读这样的数据,新的基因和蛋白没办法识别,功能没办法分析。只有通过算法或者工具,才可以进行序列和基因组数据的分析。在这之后,迎来了生物信息学发展的一个转型期——后基因组时代。如果说在基因组时代,生物信息学还有其相对独立的研究问题和关注点,那么在其之后,随着对于生命系统的不断深入探究和各种其他高通量组学技术的产生和发展,生物信息学的研究范畴不断扩大,扩展到对于各种组学数据(转录组、蛋白质组、非编码RNA组、表观遗传组、代谢组、宏基因组等)以及生物系统层面的解读,生命科学从定性科学转向定量科学。我们越来越发现生命系统是一个复杂系统,很多问题都需要从定量和理论的角度进行研究。在这样一个环境下,生物信息学渐渐发展为“没有”其特有的研究问题了,因为它研究的基础问题本身,就是生命科学的基础问题。每一个生命科学的基本问题,都需要借助于定量计算技术,生物信息学解决的基本问题,就是生物学的基本问题,只不过手段或者方式不同而已。在这一点上,可以类比于其他自然科学的发展历史:化学信息学是化学学科的发展和延伸,医学信息学是医学学科的发展和延伸,其解决的问题越来越多的是该学科本身的基本科学问题,未来的自然科学研究,一定是定量科学与实验科学并驾齐驱、相辅相成的一种研究模式。
我国生物信息学领域正在蓬勃发展。从我国科学家参与国际基因组测序计划,到现在如火如荼的大数据、精准医学,以及国家对这个领域的不断投入(科技部和卫计委今年开始进行精准医学方向的重点研发项目立项,首批立项资助60余项,资助总金额为6亿多人民币),都日渐体现出了生物信息学的重要地位。中国计算机学会(CCF)今年上半年成立了生物信息学专业组,专业组主任由复旦大学周水庚教授担任。另外,很多学者也在探讨从事生物信息学研究的优势。英国曼彻斯特大学的计算和进化生物学家凯西·伯格曼(Casey Bergman)博士曾经撰写博文《选择读生物信息学/计算生物学的博士或博士后的N大理由(Top N Reasons To Do A Ph.D. or Post-Doc in Bioinformatics/Computational Biology)》1,列举了做生物信息学研究若干优点,包括“计算是21世纪生物学的核心技能(Computing is the key skill set for 21st century biology)”,“计算技能是高度可转移的(Computational skills are highly transferable)”, “计算能帮助提高研究者的核心科学技能(Computing will help improve your core scientific skills)”,“研究者将在研究中变得拥有更多的灵活性(You will have more flexibility in your research)”等等[1]。这篇博文可能在很多人看来有失偏颇,也有学者在网上登出帖子《不读生物信息学/计算生物学的博士或博士后的N大理由(Top N Reasons Not to do a Ph.D. or Post-Doc in Bioinformatics/Computational Biology)》2,正所谓仁者见仁,智者见智,一千个人眼中有一千个哈姆雷特,这也恰恰说明生物信息学这个领域受关注的程度。
生物信息学研究的几个阶段
既然生物信息学研究日渐重要,如何进行相关的科学研究工作呢?哈佛大学国际著名生物信息学家刘小乐(X. Shirley Liu)教授的一篇博文《生物信息学研究的几个阶段(Levels of Bioinformatics Research)》3可能会给大家很好的启发。刘小乐认为一个生物信息学者的成长,可以从最初级的“为了建模而建模”,经历“分析未发表的或者合作者提供的数据来获得生物学结论”,到“面向生物医学领域的新的高通量技术来开发计算方法和数据库”以及“有效的整合公共数据获得新的生物学结果”三个中间级别,最后进化至“在海量的数据分析中占据主导地位,提供关键的整合模型进行数据分析” 这一“大神”级别。结合这篇博文,笔者对于做生物信息学研究的体会为:第一,注意跟进新的生物实验技术,开发新的生物信息学分析方法和工具。纵观一路发展过来的基因组测序(genome sequencing)技术、染色质免疫共沉淀测序技术(ChIP-seq)、甲基化等表观遗传组学技术以及宏基因组学(metagenomics)测序技术等,我们可以发现每一种新技术的产生,都需要设计新的方法,开发新的工具和数据库,这也为计算科学家提供了广阔的研究空间;第二,借助计算机科学和系统科学的方法手段,进行多组学的数据整合分析。正是由于生物多组学技术的发展,面对同一个实验样本,我们可以产生多组学的数据,而如何整合这些数据,获得一致性及可靠性的生物学发现,就显得至关重要了,正如刘小乐所提到的,高阶段的生物信息学研究,提供数据的整合建模是一个很重要的能力,从数据中获得新的知识,发现新的生物学结论,是区别于不同阶段生物信息学研究者的一个重要指标。低阶段的生物信息学研究为了数据挖掘而挖掘,而高阶段的生物信息学研究应该是能够整合已知的公共数据,产生一些有建设性的、新的生物学发现。
生物信息学的研究模式
通常对于生物信息学研究,有不同的切入角度。生物信息学的研究模式可以分为假设驱动(hypothesis-driven)、数据驱动(data-driven)和方法驱动(method-driven)。传统的生命科学研究以假设驱动模式为主导,而未来的研究应该是三种驱动模式的融合和交叉。
假设驱动模式 不同于物理和化学学科已经有比较完备的理论体系,生命科学的理论和定量的体系发展相对比较滞后,因此传统的生命科学研究模式是以假设驱动为主导的:首先提出假设或者问题,进而设计实验进行验证和解释。
数据驱动模式 清华大学教授张学工用了“大样本低维度与小样本高维度(big small data vs. small big data)”的说法来说明生物数据的特点。传统的互联网以及金融等领域的数据样本,动辄数以亿计,这类数据从样本量的角度来看,数量是巨大的,但是每个样本所蕴含的信息通常是有限的。比如淘宝“双十一”当天产生巨大的网上交易量,而每一笔交易记录的是用户的交易时间、交易项、交易金额、送货地点等信息,即每个样本的特征表示维度相对于样本量本身来说是十分有限的,故称之为“大样本低维度”。反观生物数据,通常是样本量有限,比如某种疾病的病人采样样本(血样、尿液等),一组实验加上对照能收集几万个样本已经非常不容易了。但是对于某一个样本来说,我们通常可以做各种高通量的组学测序,获得各个组学层面的特征表示。所以在生命科学特别是临床转化医学领域,我们经常面临的状况是样本的数量小于样本的特征表示维度,故称之为“小样本高维度”。中科院陈润生院士、陈洛南研究员等也在不同的场合指出“小样本,高维度”是生物数据的主要特点。正是这样的特点,使得我们在生物数据的处理中,更加关注模型的正则化表示、特征选择以及模型过拟合等问题。比如当前热门的深度学习技术,从病人样本的组学数据分析或者疾病诊断、分型等角度上来说,由于受到样本数量的限制,深度学习模型在样本量不足的情况下容易产生过拟合,因此不太适合于生物样本的组学数据分析(如果不以病人为样本而以序列为样本,采用深度学习可能又是一种有效的基因组学数据解读方式)。而当下流行的诸如小样本学习或者迁移学习等模式,对生物样本数据分析来说可能是更好的、普适的解决方案。同时,多数据源下的数据融合分析,也是挖掘生物数据的有效方式。
方法驱动模式 可以从两个层面理解:其一是开发面向特定实验技术/高通量组学技术以及特定的数据类型解读的计算机软件或者处理流程;其二是在解读具体生物学问题和生物数据过程中所用到的统计学、系统科学、数据挖掘以及机器学习方法。第一部分在此不做详述。关于第二部分,笔者结合自己近年应用机器学习方法进行生物数据分析的一些体会,在此套用“三十六计”兵法的说法,对于该领域的一些普遍的研究模式和学习方法进行总结,以方便大家理解:
1.生物数据的多实体关联挖掘——浑水摸鱼,无中生有
在生物数据的分析过程中,我们通常需要去推断多个实体之间的关系,这种关系既可以是相同实体之间的(如蛋白质-蛋白质之间的相互作用关系,基因-基因之间的共表达关系等),也可以是不同实体之间的(如药物-靶点关系,基因-功能之间的关系,非编码RNA-靶基因之间的调控关系等)。同时对于每一类实体,我们通常又有多层面的特征描述,比如基因可以从序列角度进行描述,蛋白质可以从结构角度进行描述等。在这样一种多源异质数据的描述下,进行多实体的关联预测,可称之为浑水摸鱼,无中生有。浑水摸鱼,是从这些描述各种实体的高维度特征中间,鉴别真正的具有生物学意义的特征;无中生有,是发现那些潜在的置信度高的可能的新关联。在这方面,我们可以借鉴很多有效的机器学习模型进行关联性的预测,比如多矩阵下的协同分解(collective matrix factorization)以及二部图的随机游走(random walk)等算法。我们的课题组也利用这些方法,在药物重定位等领域做了一些探索性的工作[2]。
2.少量正例样本,大量无标注样本下的模式识别——抛砖引玉,以逸待劳
如前所述,临床样本获取不易是生物数据分析过程中一个很普遍的现象,除了前述的“小样本,高维度”的特点以外,训练样本通常还存在正反例不平衡性(data unbalance)。由于样本的标记成本高,加上生物数据自身的特点,只知道正例样本不知道负例样本是普遍存在的情况。例如文献和数据库只会记录哪些蛋白之间有相互作用(正例),但是哪些蛋白之间没有相互作用(负例),必须遍历各种实验条件才能确定;或者是文献数据库中没有记载,存在大量无标记的样本。在这种情况下,仅仅基于正例样本或者半监督(semi-supervised)的学习模式就显得十分有效。如何利用少量的标记样本或者正例样本,借助于大量的无标记样本,来进行一个具体的生物问题的模式识别,即抛砖引玉,以逸待劳,可能是一种比较普适的生物数据分析方法。在这方面,我们在药物的虚拟筛选和组合用药预测等领域也进行了一些研究工作[3~4]。
3.生物数据样本的多层面特征刻画和模式识别——围魏救赵,李代桃僵
生物数据的另外一个重要特征就是往往对于同一个样本具有不同层面的描述,比如常见的多组学整合(基因组、转录组、表观遗传组等)分析等。如何消除多组学数据以及不同实验技术、实验批次之间的异质性以及批次效应(batch effects),也是生物数据分析的重要问题。围魏救赵在这里指的是不同层面的特征如何相互利用,李代桃僵原比喻兄弟互相爱护互相帮助,这里特指样本的多层面特征描述互相辅助,用以提升最后的模式识别精度。在这方面,机器学习里面的共训练(co-training)以及多层面(multi-view)等学习模式可以借鉴,我们的课题组也在这方面进行了探索[5]。
4. 数据源分布不一致,目标源小样本——假道伐虢,借刀杀人
生物问题的处理过程中,常常遇到数据源分布不一致,目标数据源数据缺乏的问题。比如研究不同物种、不同细胞系或者不同实验条件下的同类生物学问题,这些不同条件下的数据源数据的分布是不一致的,不满足传统数据建模和学习的独立同分布条件(I.I.D)。某些时候,我们关注的某一目标源数据往往缺乏训练样本,比如我们关注于“人”这一特定物种的某一生物学问题,但是往往只有“鼠”这一物种的带标记样本。这时,我们可以用假道伐虢,借刀杀人的思想来解决问题,尝试利用机器学习中的多任务学习(multi-task learning)、迁移学习(transfer learning)等模型,借助其他数据源的数据,来帮助我们解决目标数据源上的问题。我们在这方面也进行了一系列有益的研究和探索[6~10]。
生物信息学这个研究领域未来的发展将是更加开放和多元化,它和生物技术的交叉融合也会更加紧密。多源、多层面、多角度、异质化数据的整合分析,是生物信息学方法学发展中的一个需要受关注的研究点。同时,针对生物数据“小样本,高维度”的特点,开发新颖有效的机器学习理论和方法,也十分重要。当然,所有的这些数据和方法学层面的发展,一定是为获得可靠和新颖的生物学结论服务的。