
(图文|于子豪 编辑|信息 审核|冯在文)12月8日下午,澳大利亚阿德莱德大学计算机与数学科学学院张薇副教授受邀做客Happy Hour学术沙龙,以“连接多模态边界:克服多模态学习中的融合挑战”为题,为在场师生带来一场兼具前沿性与实用性的学术报告。
张薇副教授长期从事自然语言处理、多模态学习等研究领域,发表国际期刊与会议论文140余篇,其中35篇发表于CORE A*/A 级会议,论文总被引超4200次,主持多项澳方重要科研基金,总经费超300万澳元,学术成果受到国际认可。
报告中,张薇副教授首先阐释了多模态学习的核心目标——构建能整合视觉、语言等多种数据类型的多模态模型。她指出,当前主流视觉语言模型普遍存在“模态崩溃”问题,过度依赖文本模态,未能实现真正的多模态融合。针对这一痛点,张薇深入分析了背后成因:数据集偏见导致模型对相似图片的主题判断出现偏差,双流模型天然存在模态偏向性,且缺乏细粒度监督信号制约模型性能提升。
为破解融合难题,张薇副教授分享了团队的创新探索:采用博弈论方法对比单模态与双模态输入的模型效果,精准衡量各模态贡献度;在医疗领域,针对胸片诊断展开研究,探索让模型有效利用图像信息的训练方案;在农业与联邦学习场景中,提出减少模态缺失影响的解决方案,无需补全缺失模态即可保障模型性能;针对多模态事件抽取领域缺乏评估数据集的现状,牵头构建了可用数据集填补研究空白。张薇还介绍了多模态学习的4种核心架构,并强调团队重点聚焦LLM为中心的多模态模型(如LLaVA/BLIP-2)的研发。此外,她分享了FediLoRa技术及LLM在时间序列数据上的测试发现,为相关研究提供了新视角。
互动环节,师生围绕多模态模型图片分类问题、农业数据整合可行性、时序数据处理潜力等议题展开热烈讨论。张薇副教授针对农业领域中图像、文本与传感器时序数据的融合应用,提出这是未经探索的前沿方向,鼓励师生深入挖掘。
活动负责人介绍,此次报告系统梳理了多模态学习的核心挑战与创新路径,既有理论深度,又有跨领域应用案例,让师生明晰了该领域的研究脉络,更激发了大家结合农业特色探索多模态技术应用的热情,为学院相关交叉学科研究注入新动能。学院李国亮教授、冯在文副教授等40余名师生参与了学术交流。
【主讲人介绍】
张薇副教授现为澳大利亚阿德莱德大学计算机与数学科学学院副院长、澳大利亚研究理事会青年学者(ARC Early Career Industry Fellow,2024-2027)。其研究方向涵盖自然语言处理、多模态学习、分布式计算及数据科学等领域。发表包括 47 篇国际期刊论文(Q1/Q2 期刊占比达 89%)和 93 篇国际会议论文(35 篇发表于 CORE A*/A 级会议)。论文被引用超过 4,200 次(h-index 29,i10-index 65,Google Scholar)。承担 ARC Discovery Project、Linkage Project 及 Industry Fellowship 等多类基金,总经费超过 300 万澳元。曾获南澳 “青年科学新星奖” 等奖励。
