生物信息学将引导以诊治为主的现代医学过渡到以健康保障为主的精准医学阶段
陈润生是我国最早从事理论生物学、生物信息学以及非编码RNA研究的科研人员之一,曾参加我国第一个完整基因组泉生热袍菌B4基因组序列的组装和基因标识,参加人类基因组“1%项目”和水稻基因组工作草图的研究,构建了国际上在非编码RNA领域有重要影响力的两个数据库,是国内讲授《生物信息学》第一人,曾获中国生物信息学学会(筹)颁发的首届中国生物信息学终身成就奖。
他在接受《瞭望》新闻周刊专访时表示,生物信息学在中国蓬勃发展,已经产生了大量重要研究成果,其在生物医药等领域的引领作用日益凸显。随着大数据的发展,生物信息学研究还将为医疗的精准化发展和人类健康作出贡献。
破译人类遗传基因密码催生新学科
《瞭望》:人类基因组计划被誉为生命科学领域的“登月计划”。为什么要启动这项计划?
陈润生:人类基因组计划1990年正式启动,其实质,是要破译人类遗传基因密码,即将人体细胞DNA的约30亿个碱基对(遗传密码)的排列组合进行测序,拼成一张完整的人类基因组图谱,研究人类的生长发育及疾病的诊断、治疗和预防。
1999年9月,中国成为继美、英、日、法、德外,第六个参与该计划的国家。中国在人类基因组计划中负责测定和分析3号染色体短臂上从端粒到标记D3S3610间大约30厘摩尔(相当于3000万个核苷酸)的区域,因此被称为人类基因组计划“1%项目”。2001年8月,中国科学家提前两年高质量完成了“1%项目”的基因序列图谱。
《瞭望》:什么是生物信息学?为什么说没有基因组研究就没有生物信息学?
陈润生:生物信息学是伴随着人类基因组计划实施而产生的一门新学科。
人类基因组由约30亿个碱基对组成。科学家们先要把它切割成上千万个小段,每个小段测序完成后,使用专门编写的程序在大型计算机上运算,再把它们重新拼接组装起来,过程十分复杂,为此需要建立一个新的学科。另外,过程中产生的大数据如何存储、整理、加工,如何提供给大家使用,这些问题也需要解决。更重要的是要分析基因组大数据,挖掘出与人类生长、发育及疾病相关的知识,这就产生了生物信息学。
可以说,生物信息学是一门整合数学、物理、计算机和生命科学、医学、药学等学科的新兴交叉学科,是与人类基因组研究绑定的、为破译人类遗传密码服务的。科学家通过对基因组信息的获取、处理、加工、分布、分析和解释,就能够从分子水平上了解人的生长发育、疾病发生情况,这是人类生物研究领域的进步,它使得整个生物医学进入了大数据时代。
生物信息学促进医疗体系范式变革
《瞭望》:我国生物信息学研究取得了哪些重大成果?
陈润生:生物信息学在我国起步于上世纪80年代末,此后获得了快速发展。我国科学家在完成人类基因组计划“1%项目”后,又开展了针对植物、动物、微生物等的基因测序研究,完成了“千人基因组计划”等工作。我国的基因组测序数量,也是世界上最大的。
经过40年发展,基因组研究已“繁衍”到生物医学的各个方面,只要是分子水平,都离不开基因组,核酸疫苗、核酸药物的研发,都是基于基因组研究的结果。更重要的是,它会引导以诊断治疗为主的现代医学过渡到以健康保障为主的精准医学阶段。
《瞭望》:为什么说生物信息学将促进医疗体系范式的变革?
陈润生:现在的医疗模式以治疗为主,这种模式是为病人服务的。而利用生物信息学手段,可以通过解析遗传基因大数据,提前了解人体疾病的危险因素,并加以预防、干涉;也可以对人从出生到死亡的全生命周期进行监控,以保证人体健康。
因此,在大数据驱动下,人类社会的健康模式,就从现在的诊疗模式转变成全民、全时程的预防保障模式。与医疗相关的法律法规、药品管理、社会保健制度等都会发生相应变化,这相当于完成了一个医疗体系范式变革,也为精准医疗奠定了基础。
精准医疗面临挑战
《瞭望》:现今,精准医学研究已成为国家之间新一轮科技竞争和引领国际发展潮流的战略制高点。它的核心是什么?
陈润生:自2015年时任美国总统奥巴马首次在年度国情咨文里提出“精准医学”概念以来,世界各国开始追逐相关概念和产业。精准医疗和精准医学指向是一致的,都是指整个医疗体系,要从诊断、治疗过渡到健康保障,从医院、医生诊疗为主的模式过渡到健康保障、健康评估和健康干预为主的模式。医疗体系将面对全民,可以对任何人做出健康决策,这也是精准医疗带来的变化。而它的核心,就是组学大数据和医学的结合。
《瞭望》:精准医疗的发展需要哪些基础条件?
陈润生:精准医疗主要指精准诊断、精准用药、精准治疗。而“精准”的基础首先就是组学大数据。
人的遗传密码作为一个组学,就有了基因组,通过测序还有蛋白组、转录组、表观组、空间组等一系列的“组”,一个基因组带来的是组学大数据——生命活动的不同层次都变成可测的,这也带来了不同层次的信息,组学大数据就出现了。当这些新知识与医生原有的知识融合,医生就会做出更准确的判断。
其次,随着组学大数据的出现,还需要具备一个数据时代的科学思维,就是把分子基础的变化和当前的影像学、生化学结合起来,因为精准医学是建立在现代临床基础上的。比如把原来不作为大数据的数据也变成了大数据,像电子病历、带有监测人体生命指标的可穿戴设备提供的数据、生理生化指标、影像学、病人的动态数据等个体数据加以收集整理,提取这些复杂、多尺度、多变量、高度异质化的数据进行分析,找出其中规律性的问题。还需要发展一系列生物医学信息解读的技术、方法。有了这些基础,组学大数据才能应用到诊疗中来,并与影像学、检验学以及医生的临床诊断实践等相结合,更大程度提高诊疗的精准性。
进入大数据时代,不仅是把组学大数据这份过去没有的信息提供给生物医学工作者,还要把过去孤立的个体数据都变成可共同分析的相关大数据。这就给出了一个在人类基因组研究没有出现之前所不能得到的、横向纵向都存在的大数据集合。分析破译这些生物大数据背后隐藏的生命密码,就会使得精准医疗逐步从理想变成现实。
《瞭望》:目前精准医疗的发展面临哪些困难和挑战?
陈润生:用精准医学的核心来衡量,我国离达到精准医疗的目标还有差距。从研究层面看,最大挑战就是基因组当中的“暗信息”。
人类遗传密码是可测的,但是目前人类能够真正破译,能够从根本上、规律上读懂的这部分遗传密码不超过人类基因组总量的3%,而精准医疗的起步点就是分析和应用这3%。剩余97%的遗传密码,其生物学作用现在还只是部分掌握、部分了解,破译分析这些“暗信息”,过程将非常缓慢,但非常关键。
第二个挑战来自生物大数据。我国的数据源很大,但从样本源来讲,要做某一个相关疾病的研究,得到特定样品很难。比如说要研究肺癌,收集肺癌样本就十分不易。像肿瘤、心脑血管病,都是多基因病,它的自变量是成百上千的,要得到这个量级的样本进行专项研究,作为研究组很难办到。
同一种疾病,发生的微观情况也不同。比如同样是肺癌病人,病灶分布位点不同、数量不同,变化也不相同。那么,相同的疾病,什么是共同的分子基础,什么是个体差异,这个需要在新的组学意义上定义。这是第三个挑战。
另外,影响某一种疾病发生的不仅仅是每一个基因的变化,还有基因间的相互作用。所以,还要考虑各个遗传基因密码的相互作用。就是说,一个活的生命体,它所具有的包括信号传导、大分子相互作用、调控等这些复杂网络,都是动态的、有向的。而一个动态、有向组成的非线性网络是复杂的,如何解析,同样是高难度的挑战。
《瞭望》:这是否也意味着重大创新机遇?
陈润生:是的。在人类基因组研究中,科学家只破译了3%的遗传密码,这对“精准”而言是不够的,但从仅仅破译的3%遗传密码已为生命科学带来的无数新发现、为生物医学带来的巨大发展的角度讲,破译97%的非编码序列更具挑战性,也意味着更多机遇。
如今,对非编码RNA的研究已成为国际科学研究领域的热点。在基因组的研究、测量、分析方面,我国与欧美等国家和地区处在同一方阵。在非编码遗传基因研究方面,我们与国外科学家也是各有优势、同时进步的,有些方面我们还走在前面。
我在国内最早开展非编码研究,就是基于“人的基因组不可能只用3%的遗传密码造蛋白、而其他序列没有用”这个朴素的逻辑判断。早在1993年,我就把研究团队全部转向97%的非编码研究上来,这也推动了国内的非编码研究。我们构建的收录非编码RNA及其基因的数据库NONCODE,以及收录非编码RNA与其他生物大分子相互作用的数据库NPInter,已成为国际在非编码RNA领域非常有影响力的数据库。
《瞭望》:我国在精准医学发展中应注意哪些问题?
陈润生:首先共享好大数据、大样本。
现在各个地方、各家医院、各医学院校都存在大量生物医学数据,怎样才能在国家层面上实现数据共享,是科学、技术问题,也是管理问题。
从数据层面上讲,要进行数据的挖掘分析,首先要有大数据,这就需要一个集中管理数据的体制机制,需要完善各地区、各医疗单位提供的数据共享的机制。
其次是知识产权问题。这是数据共享、交流中更深层次的问题。应从国家战略高度统筹部署,并制定和大数据相关的政策法规,解决大数据管理、共享等方面问题。
目前,伴随着基因组学发展而发展的生物信息学,已走过了“测序基因组阶段”,正步入功能基因组和整合基因组阶段(又称“系统生物学阶段”)。这也说明,生物信息学的内涵更丰富,工具更多样化,未来用途也会越来越广泛。仅从民生角度看,它的发展,就带动了生物医学和生物医药产业的发展,比如核酸疫苗、核酸药物的研发。随着生物经济的发展,生物医药产业有望驶入发展快车道,也必将对人类健康作出更多贡献。