创新!BNBU人工智能毕业生论文获计算机视觉顶会ICCV(CCF-A)会议收录


近日,北师香港浸会大学(BNBU)理工科技学院计算机科学系2021级人工智能专业本科生李宇健以第一作者身份撰写的学术论文《How Do Optical Flow and Textual Prompts Collaborate to Assist in Audio-Visual Semantic Segmentation?》成功被2025年国际计算机视觉大会(ICCV 2025)录用。该研究在计算机科学系副系主任范文涛博士的指导下完成,体现了理工科技学院计算机科学系在人工智能与多模态感知研究方面的坚实基础与人才培养成效。



论文简介


本研究聚焦于音频-视觉语义分割(AVS)任务,提出了一种新颖的模型—SSP(Semantic Segmentation with Prompts),以增强对发声目标的定位能力。研究对比了现有的四类AVS方法:基于融合的方法(a)和三类基于提示的方法(对象查询、掩码、文本提示,分别对应(b.1)、(b.2)、(b.3)),并在此基础上引入了本研究所提出的SSP模型(c)。该模型通过融合光流信息与预掩码技术,并结合双重文本提示,有效提升了分割性能。模型中特别设计的视觉-文本对齐(VTA)模块进一步优化了跨模态语义对齐能力。



尽管光流已是经典研究课题,本研究发现其在AVS任务中依然具有显著价值。SSP模型创新性地将光流作为提示,引导模型识别移动目标;同时借助文本模态弥补对静态发声体的理解不足。VTA模块有效缓解了现有方法中的模态对齐难题。如下图所示,光流能够携带与声音源相关的关键线索,包括:(a)动态发声体(如人物)和(b)静态但与声音源相关的物体(如吉他)。




模型亮点与创新点




1. 光流与预掩码融合:

SSP模型引入光流信息与预掩码(GT掩码)的交集,形成更为准确的提示区域。该交集用于过滤背景信息,仅保留显著区域。在掩码生成中,模型对明确区域赋权值为1,对背景赋值为0,剩余不确定区域赋权值为0.5(灰色区域),确保最大程度利用可靠光流特征并规避噪声干扰。


2. 双重文本提示:

模型引入两种文本提示:其一用于补充静态发声物体的语义信息,其二用于丰富整体视觉理解,提升分割上下文感知能力。


3. 视觉-文本对齐模块(VTA):

VTA模块通过统一的跨模态表示整合视觉与文本信息,增强模型对多模态语义的感知与匹配能力。


4. 光流与后掩码优化:

在训练阶段,模型引入基于光流与GT交集的后掩码(GT')预测损失,作为先验知识引导模型学习。该损失函数具有更高的容错率,避免模型对真实GT的过度依赖,提高其在测试阶段的泛化能力。



学生分享


在撰写这篇论文的过程中,我深刻体会到了科研的挑战与乐趣。音频-视觉语义分割是一个高度交叉且具有前沿性的研究方向,刚开始时我对如何将光流与文本提示有效融合感到迷茫,但在范文涛老师的悉心指导下,我逐步厘清了问题的本质,并通过大量实验验证了每一个设计决策的合理性。从模型构建到论文撰写,每一步都让我更加坚定了投身科研的决心。能够在 ICCV 这样世界顶级的会议上以本科生的身份发表学术论文,我感到非常荣幸,也更加期待在未来的博士阶段,继续探索人工智能领域的更多未知与可能。



会议简介


International Conference on Computer Vision(ICCV)是计算机视觉领域最具影响力的国际顶级学术会议之一,由IEEE主办,与CVPR和ECCV并称为计算机视觉三大顶会。ICCV始于1987年,每两年举办一次,为CCF(中国计算机学会)推荐的A类会议。2025年ICCV共收到有效投稿11239篇,最终录用2698篇,录用率为24%。本届大会将于2025年10月19日至23日在美国夏威夷举行,李宇健同学将赴夏威夷参会并进行报告展示。他也将在2025年9月起在范文涛博士的指导下继续在北师港浸大计算机科学系攻读博士学位,致力于人工智能与机器视觉的前沿研究,力争在该领域取得更高水平的科研成果。


来源 | 计算机科学系