(图文|李贝卓 审核|张泽宇)近日,我院2022级生信专业李贝卓的研究论文被Plant Communications接收。论文题为“GENIUS-LLM: an evidence-traceable, gene-centered multi-omics inference framework for plant gene function analysis”。该研究面向植物基因功能解析中多组学信息整合难、深度学习模型可解释性不足、数据库查询门槛较高等问题,提出一个以基因为中心、证据可追溯的多组学智能推理框架GENIUS-LLM。该框架能将不同来源的植物组学证据组织为结构化、可审查的推理单元,并生成具有明确证据链条的基因功能假设,为植物功能基因组学研究和作物分子育种提供新的智能分析工具。
基因功能解析是现代农业生物学研究的重要基础。随着植物多组学数据的快速积累,研究人员能从表达、注释、同源关系、共表达、遗传关联等多角度获取基因功能线索。然而,这些数据来源复杂、格式不一,综合分析仍高度依赖人工经验;同时,传统深度学习模型虽具有较强预测能力,但结果往往缺乏可解释性。因此,如何在整合多源组学信息的同时,生成具有清晰证据来源和推理逻辑的基因功能假设,是植物功能基因组学研究中亟待解决的问题。
针对上述问题,本文构建了GENIUS-LLM框架。该框架以目标基因为中心,整合棉花、水稻和拟南芥中的多类组学证据,并通过设定的推理流程和证据优先级设置,引导大语言模型生成可追溯、可审查的基因功能假设。与直接给出预测结果不同,GENIUS-LLM 更强调“为什么得出这一结论”,能同时呈现证据来源、推理链条和功能解释。

图 1 GENIUS-LLM 框架整体设计与工作流程
推理过程中,GENIUS-LLM采用类似检索增强生成的架构,将检索到的多组学证据输入 GPT-4o,并通过固定的推理脚手架约束模型的分析顺序、证据优先级和冲突处理方式。其中,TWAS、人工整理的GO/KEGG等直接功能证据被赋予更高权重,表达数据和注释信息作为重要验证依据,而共表达和序列相似性等间接证据则作为辅助参考。通过这种差异化证据加权策略,框架能避免大语言模型在长上下文中受到间接但“显眼”信息的过度影响,从而提高推理过程的稳定性和可审查性。

图 2 GENIUS-LLM 方法框架整体概述
为系统评估 GENIUS-LLM 的综合性能,研究团队从模型预测能力、功能层级适应性和结果可解释性3方面进行了验证。首先,GENIUS-LLM 与多种深度学习模型及单独使用 GPT-4o 的结果进行比较,在棉花、水稻和拟南芥中的多数评价指标上表现最优,尤其在精确率、AUC 和 F1 值方面优势明显。其次,GO分析表明,该框架能在不同功能本体层级下保持较好功能特异性和稳定性。最后,研究团队随机选取 150 份功能报告进行可解释性评估,结果显示 GENIUS-LLM 在证据可追溯性、推理链条清晰度、多证据整合能力和整体一致性等方面均表现良好,说明其不仅能给出较可靠的功能预测,还能清晰呈现“为什么得出这一结论”。
为进一步验证框架的实际应用价值,本文选取近期发表的棉花基因功能研究作为案例。结果显示,在未提供最新文献与更新文献所用数据的情况下,GENIUS-LLM即能推断目标基因Ghir_A09G005620/GhBEE3可能作为油菜素内酯信号相关的正调控因子参与棉纤维早期发育,这一结论与文献后续实验研究结果一致。进一步补充最新文献后,框架还能对原有结论进行更新和细化,体现出良好动态推理能力。
综上,该研究提出的 GENIUS-LLM不是替代实验验证的“答案生成器”,而是一个面向植物基因功能研究的智能假设生成工具。它能将复杂分散的多组学证据组织为清晰、可解释、可更新的推理结果,帮助研究人员快速形成可审查的基因功能假设。该框架为植物功能基因组学研究提供了新的智能化分析范式,也为未来作物重要性状基因挖掘、候选基因筛选和分子育种研究提供了新的思路和方法。
麻豆 2022级生信专业本科生李贝卓、石河子大学博士后尤佳琦为本文共同第一作者;王茂军教授与张泽宇副教授为共同通讯作者,张献龙院士参与指导该项研究。2022级生信专业本科生郑杰、奥克兰大学博士郑显达参与研究,研究得到湖北省科技支撑项目、新疆重点高校项目等资助。
