北师港浸大(BNBU)理工科技学院计算机科学与技术专业2021级本科生郭禹辰、徐若翔和李榕成,在苏伟峰教授的指导下撰写的论文《DAE-Fuse: An Adaptive Discriminative Autoencoder for Multi-Modality Image Fusion》,成功被人工智能领域计算机图形学与多媒体顶级会议——IEEE International Conference on Multimedia & Expo (ICME) 2025 (ICME 2025) 接收。
在极端场景(如夜间或低能见度环境)下,实现可靠的感知对于自动驾驶、具身智能及监控等应用至关重要。为提升有效感知,团队针对现有多模态图像融合技术的局限性展开攻关,提出创新性解决方案。多模态图像融合技术能将数据源的图像信息整合在一起,以获得比单一模态图像更全面、更准确的结果,但现有的融合结果并不能达到理想的效果。基于生成对抗网络(Generative Adversarial Networks, GAN)的方法往往会生成模糊的图像,缺乏细粒度的细节;而基于自编码器(AutoEncoder, AE)的方法可能会偏向特定模态,导致融合结果不够自然。
为了解决上述问题,该论文提出了一种新颖的两阶段判别自编码器框架——DAE-Fuse,该方法能够生成清晰且自然的融合图像。此外,该论文首次提出将图像融合技术从静态图像扩展至视频领域,在保证单帧图像的空间一致性的同时保持跨帧的时间一致性,从而提升自主导航所需的感知能力。DAE-Fuse在多个公开数据集上的多个基准测试大量实验表明,均达到了最新的最优性能,并在医学图像融合等任务上展现出卓越的泛化能力。
极端环境下监控红外-可见光融合实验
医学融合实验
自动驾驶情况下视频融合实验
审稿人高度评价本研究的学术价值,认为其在多模态图像融合领域的探索表现出色。论文创新性地提出了两阶段判别自编码器框架(DAE-Fuse),并结合对抗学习引导的特征提取与注意力机制引导的跨模态融合,有效提升了融合图像的清晰度和自然性。大量实验结果表明,该方法在多个数据集均取得了SOTA(State-of-the-art)的效果,并首次将图像融合拓展到视频融合,展现了优越的时序一致性和空间一致性,这为自动驾驶、智能监控和具身智能等实际应用提供了更具实用价值的解决方案。
模型框架
指导老师苏伟峰教授(右一)和研究人员(左起):徐若翔、郭禹辰、李榕成
IEEE多媒体与博览会国际会议(International Conference on Multimedia & Expo,简称ICME)始创于2000年,是多媒体领域最具影响力的国际顶级学术会议之一,专注于图像、音频、视频及其处理与应用的前沿研究。作为IEEE(电气电子工程师协会)在多媒体计算、计算机视觉及人工智能交叉学科领域的旗舰会议,ICME汇聚了全球顶尖学者、科研人员及业界领袖,共同探讨多媒体技术的最新突破与未来趋势。ICME在学术界享有盛誉,并在中国计算机学会(CCF)推荐的国际学术会议中评定为B类国际会议。ICME 2025 共收到3700余篇有效投稿,录用率约27%,此次大会将于2025年6月30日至7月4日在法国南特举行。
来源 | 计算机科学系