我院本科生第一作者在《Plant Communications》发表研究论文-麻豆

（图文|李贝卓审核|张泽宇）近日，我院2022级生信专业李贝卓的研究论文被Plant Communications接收。论文题为“GENIUS-LLM: an evidence-traceable, gene-centered multi-omics inference framework for plant gene function analysis”。该研究面向植物基因功能解析中多组学信息整合难、深度学习模型可解释性不足、数据库查询门槛较高等问题，提出一个以基因为中心、证据可追溯的多组学智能推理框架GENIUS-LLM。该框架能将不同来源的植物组学证据组织为结构化、可审查的推理单元，并生成具有明确证据链条的基因功能假设，为植物功能基因组学研究和作物分子育种提供新的智能分析工具。

基因功能解析是现代农业生物学研究的重要基础。随着植物多组学数据的快速积累，研究人员能从表达、注释、同源关系、共表达、遗传关联等多角度获取基因功能线索。然而，这些数据来源复杂、格式不一，综合分析仍高度依赖人工经验；同时，传统深度学习模型虽具有较强预测能力，但结果往往缺乏可解释性。因此，如何在整合多源组学信息的同时，生成具有清晰证据来源和推理逻辑的基因功能假设，是植物功能基因组学研究中亟待解决的问题。

针对上述问题，本文构建了GENIUS-LLM框架。该框架以目标基因为中心，整合棉花、水稻和拟南芥中的多类组学证据，并通过设定的推理流程和证据优先级设置，引导大语言模型生成可追溯、可审查的基因功能假设。与直接给出预测结果不同，GENIUS-LLM 更强调“为什么得出这一结论”，能同时呈现证据来源、推理链条和功能解释。

图 1 GENIUS-LLM 框架整体设计与工作流程

推理过程中，GENIUS-LLM采用类似检索增强生成的架构，将检索到的多组学证据输入 GPT-4o，并通过固定的推理脚手架约束模型的分析顺序、证据优先级和冲突处理方式。其中，TWAS、人工整理的GO/KEGG等直接功能证据被赋予更高权重，表达数据和注释信息作为重要验证依据，而共表达和序列相似性等间接证据则作为辅助参考。通过这种差异化证据加权策略，框架能避免大语言模型在长上下文中受到间接但“显眼”信息的过度影响，从而提高推理过程的稳定性和可审查性。

图 2 GENIUS-LLM 方法框架整体概述

为系统评估 GENIUS-LLM 的综合性能，研究团队从模型预测能力、功能层级适应性和结果可解释性3方面进行了验证。首先，GENIUS-LLM 与多种深度学习模型及单独使用 GPT-4o 的结果进行比较，在棉花、水稻和拟南芥中的多数评价指标上表现最优，尤其在精确率、AUC 和 F1 值方面优势明显。其次，GO分析表明，该框架能在不同功能本体层级下保持较好功能特异性和稳定性。最后，研究团队随机选取 150 份功能报告进行可解释性评估，结果显示 GENIUS-LLM 在证据可追溯性、推理链条清晰度、多证据整合能力和整体一致性等方面均表现良好，说明其不仅能给出较可靠的功能预测，还能清晰呈现“为什么得出这一结论”。

为进一步验证框架的实际应用价值，本文选取近期发表的棉花基因功能研究作为案例。结果显示，在未提供最新文献与更新文献所用数据的情况下，GENIUS-LLM即能推断目标基因Ghir_A09G005620/GhBEE3可能作为油菜素内酯信号相关的正调控因子参与棉纤维早期发育，这一结论与文献后续实验研究结果一致。进一步补充最新文献后，框架还能对原有结论进行更新和细化，体现出良好动态推理能力。

综上，该研究提出的 GENIUS-LLM不是替代实验验证的“答案生成器”，而是一个面向植物基因功能研究的智能假设生成工具。它能将复杂分散的多组学证据组织为清晰、可解释、可更新的推理结果，帮助研究人员快速形成可审查的基因功能假设。该框架为植物功能基因组学研究提供了新的智能化分析范式，也为未来作物重要性状基因挖掘、候选基因筛选和分子育种研究提供了新的思路和方法。

麻豆 2022级生信专业本科生李贝卓、石河子大学博士后尤佳琦为本文共同第一作者；王茂军教授与张泽宇副教授为共同通讯作者，张献龙院士参与指导该项研究。2022级生信专业本科生郑杰、奥克兰大学博士郑显达参与研究，研究得到湖北省科技支撑项目、新疆重点高校项目等资助。

论文链接：//doi.org/10.1016/j.xplc.2026.101941