郑进芳:AI+生物学,探索生命进化真相
计算,是郑进芳开展生物学研究的关键一环。
从华中科技大学到内布拉斯加大学,再到之江实验室,十余年来,郑进芳深耕生物学研究,以 “计算+生物学”跨学科研究方法,探索生命起源和物种进化的奥秘。近期,郑进芳及团队的最新研究成果登上《自然·遗传学》(Nature Genetics),通过“多组学数据+计算工具”的方式,揭示了双星藻(Zygnematophyceae)与远古植物的生物学关系,为水生植物占领陆地提供了有力证据。
今年,郑进芳加入生命科学计算开放平台(以下简称“生命科学平台”)项目,专注于单细胞组学大模型研究。在他看来,“计算+数据+模型”的方式提升了研究效率,让生物学研究变得自动化、规模化,甚至可以为科学问题“量身定制”一套AI解决方案。

参天树木、如茵绿草、芬芳鲜花,我们对身边丰茂的植物“朋友们”早已司空见惯。然而,当地质年代的时钟拨回寒武纪,在距今5亿年前的地球上,海洋孕育了最初的生命,植物的足迹尚未踏入陆地。
那么,水生植物是如何占领陆地的?植物如何由水生向陆生演化?环境变化和遗传因素如何相互作用?抱着好奇与疑问,郑进芳和团队开展了研究。

论文链接: https://www.nature.com/articles/s41588-024-01737-3
从海洋向陆地“进军”绝非易事,水生植物需要适应干燥、强紫外线的环境。在研究中,郑进芳和团队发现:水陆两生的双星藻类与陆生植物有亲缘关系,这种藻类的诞生可追溯至远古时期。于是,团队利用RAxML等30余种开源生物计算工具,处理了多达16个物种的蛋白质序列数据和200G的转录组和基因组数据,获得了物种间基因的进化关系树状图。
研究结果表明,双星藻类和现代植物都具有合成细胞壁必需的纤维素合成酶,并拥有了适应陆地环境所需的信号网络调控机制。

从事计算生物学研究以来,郑进芳一直在思考如何能提升研究速率,更高质量地解决生物学问题。传统生物学研究涉及大量的“湿实验”,对实验环境、实验对象的要求较高,实验时间也相应延长;同时,由于技术和方法的限制,大规模数据处理和复杂系统分析也成了难题。即便是目前通用的计算生物工具,依旧存在“批次效应”、背景噪声、多组学数据难以整合等问题,对不同生物的同一种细胞或组织进行分析时,会得出不同的结论。而大模型能够改善目前单细胞数据分析的问题。
随着之江实验室在智能计算方向上再聚焦、勇攀高,郑进芳在加入生命科学计算研究中心后,专注于生命科学平台项目,进一步聚焦大模型解决生命科学问题的实施路径和应用场景。“我们进入了‘计算密集、数据驱动、基于模型’的时代,在生物学研究的发展中,计算已经从辅助性的工具变成了重要的创新引擎。”郑进芳说道,“以双星藻类的研究为例,我们花费了2到3天的时间来处理多组学数据。如果在平台上处理相同的数据,这一时间将缩短到5分钟以内。”
目前,郑进芳正参与单细胞组学大模型项目,计划用这一大模型处理海量的多组学数据,力图全面展示细胞进化与发育的规律。“数据处理、模型优化、算力支持,AI for Science的最终目的是利用大模型攻克具体的生物学问题。”郑进芳总结道。下一步,他将与团队一道,聚焦胚胎发育异常、血细胞功能变异、免疫缺陷等研究目标,以数据驱动模型构建、优化提升平台能力,充分发挥“IT+BT”交叉领域研究方法的巨大潜力,为推动传统科学研究的范式变革按下“加速键”。
- 收藏




