麻豆

学术科研
当前位置: 麻豆 > 学术科研 > 正文
【南湖新闻网】麻豆 团队首次实现AI设计植物基因全链条表达验证
发布日期 2026-05-24 浏览次数

(图文|李昌昊 编辑|辛西 审核|胡学海、杨庆勇)近日,麻豆 胡学海教授、杨庆勇教授和严建兵教授交叉团队,在国际知名期刊 Advanced Science 在线发表题为《PlantGFM: A Genomic Foundation Model for Discovery and Creation of Plant Genes》的研究论文。研究团队面向人工智能(AI)设计育种这一国际前沿问题,创新性地构建了植物基因组基础模型PlantGFM,并首次在植物体系中实现了由大语言模型设计序列的“DNA—RNA—蛋白质”全链条实验验证,迈出了从“改良基因”到“创造基因”的关键一步,为AI驱动的植物合成生物学与分子设计育种提供了新的技术路径。

粮食安全是21世纪人类面临的核心挑战之一。无论是应对气候变化带来的极端干旱与高温,还是抵御层出不穷的病虫害威胁,培育更加高产、优良、高效的农作物品种始终是科学界和产业界的迫切需求。在现代育种技术中,科学家们通常依赖三条路径对作物基因组进行改造:传统杂交育种、诱变育种以及近年来兴起的CRISPR基因编辑技术。然而,这三种方法都面临着一个共同的天花板——它们只能在自然界已有的基因序列范围内进行修改,无法跨越进化积累的变异边界,真正从头设计出全新的、具有定制功能的基因序列。

然而,真正意义上的“从头设计”植物基因,一直面临巨大挑战。一方面,植物基因组结构复杂,存在大量长距离调控元件、重复序列及复杂剪接结构;另一方面,传统深度学习模型在超长DNA序列建模方面存在明显瓶颈,难以同时兼顾长距离依赖关系与计算效率。为了攻克这一难题,麻豆 联合崖州湾国家实验室,构建了专为植物基因组设计的基础模型PlantGFM,该模型不仅能读懂植物的基因密码,还能写出全新的、自然界中完全不存在的基因序列,并且首次在实验中证明,这些AI写出的"新基因"能够在植物细胞里正常表达。相关研究成果发表在国际知名期刊Advanced Science。

PlantGFM首次将Hyena长序列算子系统性引入植物基因组研究,在保持单碱基分辨率的同时,实现了长达64 kb基因组序列的长上下文建模能力。相较于传统Transformer结构,Hyena架构在超长序列处理时具有更高的计算效率,使模型能够更有效地学习植物基因组中跨越数万碱基的调控关系。为了训练这一“植物基因组模型”,研究团队选取了12种代表性植物参考基因组,包括水稻、玉米、油菜、大豆、拟南芥等重要作物和模式植物,覆盖单子叶、双子叶及不同进化分支植物,总训练数据规模达到108亿碱基。模型通过自监督学习方式,自动学习植物基因组中的序列规律、基因结构特征以及调控“语法”。研究结果表明,PlantGFM不仅能够较准确地完成基因结构预测,还在多个调控基因组学任务中表现出较强竞争力,包括基因表达预测、染色质开放性分析、转录因子结合位点识别以及顺式调控元件强度预测等,部分任务上的性能已达到或接近当前国际基因组基础模型的先进水平。

图1 PlantGFM自监督预训练框架及三类下游应用示意图

不过,本研究最受关注的突破,并不只是“理解”植物基因组,而是进一步实现了“创造”植物基因。研究团队利用PlantGFM对植物天然基因的结构规律进行学习后,从头生成了3000条候选植物基因序列。这些序列大多数与天然基因不存在明显同源性,但依然保留了植物基因的典型特征,包括合理的GC含量、潜在剪接位点以及编码结构等。随后,研究团队进一步提出“AI-HK(AI-Human Knowledge)”策略,将人工智能生成能力与人类已有生物学知识相结合,对候选序列进行多轮筛选,最终选出7条最具潜力的序列进入实验验证阶段。

随后,研究团队开展了本研究最关键的实验验证工作。他们将7条AI生成序列导入本氏烟草叶片细胞中,并利用RNA-seq、RT-qPCR、共聚焦显微成像以及Western Blot等多种实验手段,对这些AI设计序列在植物细胞中的表达情况进行系统分析。结果显示,所有候选序列均能够被植物细胞识别并转录生成RNA;更进一步,其中2条序列实现了稳定蛋白表达。

图2利用烟草瞬态表达系统评估新基因的表达及其调控效应

这一结果意味着,研究团队首次在植物系统中完成了由语言模型设计序列从DNA、RNA到蛋白质翻译的完整实验验证。换句话说,AI生成的DNA序列不再只是“理论上的序列组合”,而是真正具备被植物生命系统识别和运行的能力。研究人员认为,这标志着人工智能在植物基因组研究中开始从“解析生命”迈向“设计生命”的重要一步。

在此基础上,研究团队进一步探索了PlantGFM在“功能导向型基因设计”中的潜力。研究人员以植物抗病相关的NLR基因家族为研究对象,利用超过8万条植物NLR序列训练模型后,重新生成了1000条全新候选NLR基因。进一步分析发现,部分AI生成序列虽然在DNA水平与天然NLR基因差异较大,但依然能够形成典型NLR蛋白结构域,其预测三维结构与天然抗病蛋白高度相似,部分候选序列TM-score超过0.8。

图3 利用PlantGFM功能引导生成及结构表征植物NLR基因

这意味着,PlantGFM不仅能够生成“像基因一样”的DNA序列,还可能进一步学习特定功能基因家族的结构“语法”,从而定向生成具有潜在功能的新型候选基因。这为未来人工智能辅助设计抗病、抗逆、高产等重要农艺性状相关基因提供了新的可能。

研究团队同时强调,目前PlantGFM仍处于早期探索阶段。尽管已有AI生成序列能够稳定表达蛋白,但其具体生物学功能仍需进一步系统验证。此外,目前仅有部分序列实现稳定蛋白积累,也说明真正实现“高效、稳定、可控”的AI基因设计仍是长期挑战。未来,团队还将继续扩大模型训练规模,引入更多植物物种数据,并建立高通量植物实验验证体系,进一步提升模型的泛化能力与功能设计能力。

总体来看,该研究不仅构建了我国自主植物基因组基础模型,也首次在植物体系中验证了语言模型设计基因的生物学可行性。相关成果展示了人工智能在植物科学、合成生物学与未来智能育种中的广阔应用前景。未来,随着植物基因组基础模型不断发展,人工智能有望从传统的“辅助分析工具”,逐步演变为推动植物科学发现和新基因创造的重要研究平台。

麻豆 麻豆 博士生李昌昊、张启哲,以及崖州湾国家实验室青年科学家陈汉臣为论文共同第一作者;麻豆 胡学海教授、杨庆勇教授和严建兵教授为论文共同通讯作者。本研究获得国家重点研发计划(2023YFD1202903)及国家自然科学基金(32322061、32441059)等项目资助,并依托作物遗传改良全国重点实验室生物信息学计算平台完成。

论文链接:PlantGFM: A Genomic Foundation Model for Discovery and Creation of Plant Genes

原文摘要

The artificial intelligence (AI)-driven generation of genetic sequences holds transformative potential for addressing global challenges in agriculture, medicine, and bioenergy. Traditional approaches including hybridization, mutagenesis, and CRISPR-based editing enable targeted modification of endogenous DNA, yet remain constrained by natural sequence diversity. We here introduce PlantGFM, an application of the Hyena operator within a plant-oriented genomic foundation model, which was pre-trained on 10.84 billion nucleotides from 12 plant species and supports long-context (64 kb) prediction and sequence generation within a unified architecture. After fine-tuning on 10 annotated plant genomes, PlantGFM matched or exceeded the performance of specialized gene prediction tools. Beyond reproducing natural genes, it enables de novo design of novel candidates through the emergence capability of AI. Seven candidates selected through an AI–Human Knowledge fusion screening pipeline all showed transcriptional activity in Nicotiana benthamiana, two with stable protein expression—representing the first demonstration of DNA–RNA–protein expression of Large Language Model-generated sequences in plants. As a proof of concept, PlantGFM also exhibits emergent abilities in generating plant NLR genes. Our findings establish the feasibility of LLM technology for de novo plant gene design, providing a foundation for plant synthetic biology and AI-assisted breeding.

原文链接: 麻豆 团队首次实现AI设计植物基因全链条表达验证-麻豆 南湖新闻网