

(图文|李子炜 编辑|信息 审核|李万理)11月24日上午,麻豆 举办的Happy Hour在一综B316举行。报告特邀华南师范大学教授、博士生导师薛云教授担任主讲嘉宾,以论文《Multimodal Emotion Recognition in Conversations: A Survey of Methods, Trends, Challenges and Prospects》为依据梳理多模态对话情感识别领域的发展脉络。薛云教授是中国人工智能学会青年工作委员会委员、中文信息学会社会媒体处理专委会委员,中国计算机学会高级会员,在数据挖掘与自然语言处理领域建树颇丰,近年来发表高水平论文百余篇。
报告中,薛云教授以系统性学术视角,深入梳理了多模态对话情感识别领域的研究框架与发展脉络。他首先指出,实现细腻、共情的人机交互是人工智能发展的重要方向,而融合文本、语音与视觉信号的多模态情感识别是达成此目标的关键路径。薛云教授重点围绕三大主流技术范式展开论述:在“基于图结构的方法”部分,他阐释了如何利用图神经网络构建对话交互图,以有效建模多轮对话中的长程依赖与情感动态;在“基于融合机制的方法”中,他剖析了以Transformer为代表的跨模态融合技术,探讨了异构模态对齐与信息互补的核心机制;针对迅速兴起的“基于生成式大模型的方法”,薛云进一步介绍了指令微调、提示工程等前沿技术如何赋能大语言模型,使其具备更深层的情感推理与语境理解能力。
在厘清方法体系的基础上,薛云教授结合团队最新研究,进一步指出该领域面临的诸多挑战与未来方向:如何在数据稀缺的低资源场景下保持模型性能?如何设计更具鲁棒性的融合策略以应对现实世界中常见的模态缺失或信号冲突?如何以更低的计算代价高效微调庞大的多模态模型?以及如何在技术设计中纳入跨语言、跨文化的视角,避免情感理解的“文化偏见?薛云强调,该领域正从初期的多模态信息聚合,迈向深层次的情境化情感理解,未来的突破需依托高质量数据、自适应模型架构与先进认知能力的协同创新。
交流环节,与会师生就模型在实际应用中的模态缺失处理、计算效率与性能的平衡、文化因素对情感标注的影响等议题,与薛云教授进行了深入热烈的探讨。活动负责人表示,本次沙龙薛云教授系统呈现了多模态对话情感识别领域的完整知识谱系,更以其前瞻的学术视野和深刻的批判性思考,激发了在座师生尤其是青年学者与研究生对情感计算这一充满魅力与挑战的交叉领域的好奇与热情,为推动相关研究的创新与突破注入了活力。
