欢迎访问中国微生物信息网!

构建至今最全微生物基因目录,生物医学人工智能团队研究成果登上《自然》主刊​

日期:05-06  点击:  属于:热点资讯

北京时间2021年12月16日凌晨,复旦大学类脑智能科学与技术研究院(下文简称“类脑研究院”)青年研究员路易斯·佩德罗·科埃略(Luis Pedro Coelho)、教授赵兴明、名誉教授皮尔·伯克(Peer Bork)与来自德国、西班牙、美国、英国等多国科学家合作的研究成果《原核生物基因的生物地理学研究》(“Towards the biogeography of prokaryotic genes”), 以长文(Article)形式发表于《自然》(Nature)主刊。


▲《原核生物基因的生物地理学研究》(“Towards the biogeography of prokaryotic genes”)刊登于《自然》(《Nature》)主刊

该研究基于全球微生物组(global microbiome)的概念,将地球上不同栖息地的微生物作为统一系统,运用人工智能技术对1.3万个公开宏基因组样本进行挖掘,构建了迄今为止最全面的全球微生物基因目录(GMGC,Global Microbial Gene Catalog),为全球微生物组研究迈出了重要一步。

自2017年起,团队就开展了有关全球微生物组的研究,希望通过构建全球微生物基因目录,帮助进一步系统研究全球微生物的功能和进化。在历时三年的成果背后,是研究团队对学科前沿的关注、跨学科交融的攻关与国际合作的共同努力。

构建基因目录、揭示基因与环境的重要关联

微生物是影响人类生存、地球生态的重要因素。传统微生物组研究按照人类微生物、海洋微生物等不同栖息地分别进行研究,因而无法在全球视野下全面理解不同栖息环境中微生物群落的关联。

关注到这一问题后,复旦大学类脑研究院生物医学人工智能团队基于全球微生物组(global microbiome)的概念,将地球上不同栖息地的微生物作为统一系统,涵盖肠道、口腔、皮肤、海洋、土壤等 14 个微生物的主要栖息地,运用人工智能技术对1.3万个公开宏基因组样本进行挖掘,收集了 13,174 个公开可用的高质量宏基因组和84,029个高质量的基因组,得到了包含3.03亿个物种级的基因(95%的核酸一致性聚类),构建了迄今为止最全面的全球微生物基因目录。

“其实我们对微生物知道的并不多,那么最重要的问题是我们要知道面向的微生物是什么样的物种,它的功能是什么?”作为该全球微生物组研究的科研人员之一、复旦大学类脑研究院教授、生物医学人工智能团队的负责人赵兴明介绍道,面对一个新物种,首先需要进行测序,并将其与数据库中已有的微生物进行比对,由此判断出该物种与已知物种的亲缘关系。

但微生物通常以如同“群落”而非单独个体的方式生活,因而测序过程中需要将其中的数据重新“组装”,以免得到嘈杂的数据。

赵兴明举例解释,微生物的基因数据就如同一本有许多章节、段落、句子的书,在测序阶段,我们固定一个句子包含20个字母,并以此将整本书的内容进行拆解,会得到海量的20字母长的句子。但在“组装”时,如果我们想要知道不同的短句是否包含于一个长句,就会去看这两个短句中是否包含了重复的字母。在微生物中,研究人员所测的DNA序列中只有四个字母,即A、T、C和G随机出现。那么在微生物的基因书册中,两个句子有重复字母的概率很大,在拼接时很容易出现错误。拼接完成后,因为DNA序列中只有一小部分属于基因,所以研究人员还需要将其中的基因预测出来。

此次研究论文所展现的一个重要工作,就是解决基因预测这一问题。由于涉及的数据量大,预测出的基因间冗余性会很强,如何去掉这些冗余,是研究人员需要攻克的难题。

通过建立全球微生物基因目录,研究揭示了微生物基因与栖息环境的重要关联。研究者们发现,虽然观察到很多变异,但大多数变异并不是对环境的适应,而是由所谓的“中性进化”驱动:变异只是随机的结果,而不是“达尔文选择”。这些发现对于理解抗生素抗性的产生,以及未来抗菌药物的研发具有重要的意义。

跨学科合作,交叉学科中的团队配合

作为交叉学科的研究成果,该研究涉及了很多学科背景,而这就需要研究人员把不同的学科背景理解清楚,对科学问题要有更好的把握。在研究的基因测序、组合、预测阶段,又需要数学、生物等不同的学科知识,更进一步对研究人员提出了要求。

前沿科学越来越突破学科界限,需要全域视野和全球视野,跨学科合作裨益了研究问题的解决。赵兴明表示,所有研究的作者都来自不同的学科背景,包括生物学、数学、计算机等不同领域。他认为,交叉学科的特点使各学科知识紧扣研究需要,共同促进了研究的效率提升、方法优化。“比如我是计算机背景的,我在研究中就主要负责基因预测与比对等工作。这些不同背景的人在做这个项目的过程中,对问题有更好的理解和把握。”

比如在上述重新“组装”测序数据的过程中,由于DNA序列随机两个片段中重复字母的概率较大,很容易在后续研究中导致累加的错误,所以需要丰富的数学和计算机领域知识加以解决。而根据重叠程度分辨冗余基因、进行预测基因的工作,则必须要求生物学专家提供相关知识。

在团队配合中,很难有人能对不同学科的知识都烂熟于心,但如果有着不同学科背景的组成人员,生物学家指出细菌基因特性,数学和计算机专家将开发出相关的数学模型和算法,这样的配合就能使得团队挖掘出的数据具有生物意义和更高的精度。

跨学科合作也让信息实现了从数据到知识的跨越。赵兴明介绍,在数据库建立后,研究人员会发现同样是水体,河流和海洋中的微生物存在差异,那么为什么有这种差异存在?栖息地特性对微生物的生活习性有什么影响?这些疑问都推动着研究者从环境、生理等不同角度给出解释。

研究不能仅仅停留在得到数据,而是需要让数据真正成为知识。“你不能说我预测出来这么多基因就完了,你从基因上能够解释这些(微生物)栖居地的特性吗?”

赵兴明说道,“我们是希望给别人新的知识,而不是仅仅报道一个数字”。

国际化团队,类脑研究院领衔开展高水平国际合作

除跨学科合作之外,该研究的成功亦离不开国际化团队的支持。由于研究将地球上不同栖息地的微生物作为统一系统,因而需要世界各地的科研人员贡献本地区的微生物数据,为此,团队的组建也充分考虑了国际合作的需求,由欧洲分子生物学实验室(EMBL)负责人、复旦类脑研究院名誉教授皮尔·伯克牵头组织,研究人员来自英国、德国、中国、美国等多个国家。

赵兴明提到,不同国家有各自的区域特点,也有各自的研究优势,复旦大学比较擅长计算机,而其他国家在微生物方面则有更强的实力。由于他与论文的第一作者科埃略,均曾在皮尔·伯克的欧洲分子生物学实验室学习工作,有了一定的合作基础,组成团队后的协同攻关也“非常顺畅”。

与外籍人员的合作中,也丰富了他对国内外科研差异的理解。他认为,中外人员的一个明显的差异在于对待严谨的态度不同。比如,国内学生自己演算出的数据,如果老师要求检查,学生检查后便不会再理会,可国外科研人员可能要反反复复地自我检查,在论文的写作上也会每句话要反复推敲好几遍,然后才能够定下来。“对待事情的细致认真的态度,可能是我们比较缺乏的一点,就跟我们所讲的工匠精神,我觉得是一致的。”

这一研究合作是复旦大学类脑研究院所构建的全球前沿研究合作伙伴网络的一个缩影。自2015年6月成立以来,类脑研究院就积极推动类脑智能跨学科国际化合作研究,领衔开展一系列高水平国际合作。2017年9月,复旦大学与伦敦国王学院共建“复旦-KCL群体神经科学国际联合研究中心”。此后,研究院在脑与类脑智能领域建立了以复旦大学为中心,联结剑桥大学、牛津大学、哈佛大学、悉尼大学等国际一流高校的星形国际合作网络。2022年,研究院预计推动实施与剑桥大学的联合培养项目以及与伦敦国王学院的联合学位项目。

但由于疫情和国际环境变动的影响,很大程度上阻碍了跨国的学术交流,线上会议和线下的讨论、互访效果有着很大的差别,对于国际人才的引进也有一定的影响。目前,依靠着在线会议,电子邮件和合作伙伴的推荐,生物医学人工智能团队仍然在积极推进着国际合作。

2022年3月,在《原核生物基因的生物地理学研究》的基础上,团队延续人工智能与微生物结合的跨学科研究思路,开发出了半监督的孪生神经网络模型,用以鉴定未知物种。下一步,类脑研究院生物医学人工智能团队还将基于所开发的基因目录,从交叉学科角度深入脑科学研究,进一步与国内外科研院所和临床医疗开展合作,探究微生物包括人体肠道微生物与人类生命大健康、大脑认知和行为等方面的影响。

微信编辑丨张淑凡

审核丨甲干初