Skip to main content
QUICK REVIEW

[论文解读] Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization

Yuxin Guo, Shijie Ma|arXiv (Cornell University)|Mar 5, 2024
Speech and Audio Processing被引用 6
一句话总结

这篇论文提出 Dual Mean-Teacher (DMT),一种半监督 AVSL 框架,包含两个师生对以滤除噪声并生成高质量伪标签,在标注有限的情况下实现了最先进的定位。

ABSTRACT

Audio-Visual Source Localization (AVSL) aims to locate sounding objects within video frames given the paired audio clips. Existing methods predominantly rely on self-supervised contrastive learning of audio-visual correspondence. Without any bounding-box annotations, they struggle to achieve precise localization, especially for small objects, and suffer from blurry boundaries and false positives. Moreover, the naive semi-supervised method is poor in fully leveraging the information of abundant unlabeled data. In this paper, we propose a novel semi-supervised learning framework for AVSL, namely Dual Mean-Teacher (DMT), comprising two teacher-student structures to circumvent the confirmation bias issue. Specifically, two teachers, pre-trained on limited labeled data, are employed to filter out noisy samples via the consensus between their predictions, and then generate high-quality pseudo-labels by intersecting their confidence maps. The sufficient utilization of both labeled and unlabeled data and the proposed unbiased framework enable DMT to outperform current state-of-the-art methods by a large margin, with CIoU of 90.4% and 48.8% on Flickr-SoundNet and VGG-Sound Source, obtaining 8.9%, 9.6% and 4.6%, 6.4% improvements over self- and semi-supervised methods respectively, given only 3% positional-annotations. We also extend our framework to some existing AVSL methods and consistently boost their performance.

研究动机与目标

  • 在有限的边界框注释下推动准确的 AVSL,并解决误报和边界模糊的问题。
  • 通过伪标签化 SSL 框架有效利用未标记数据,以最大化数据利用率。
  • 通过使用双教师和基于共识的样本筛选来克服 SSL 中的确认偏差。
  • 证明对双教师的暖身预训练能够提升定位性能和稳定性。
  • 展示通过将 DMT 与现有 AVSL 方法结合实现改进的扩展性。

提出的方法

  • 通过在有标注数据上进行暖身初始化,建立两个独立的师生管线。
  • 使用基于双教师共识的噪声筛选模块来丢弃噪声样本。
  • 通过相交两位教师的概率图(IPL)来生成高质量的伪标签。
  • 用带标注数据和 IPL 派生的伪标签的混合数据来训练学生,同时在 IPL 与学生输出之间进行一致性正则化。
  • 在学习过程中对预测区域引入注意力,聚焦于发声区域。
  • 通过其对应学生的指数移动平均(EMA)更新教师,以稳定学习。

实验结果

研究问题

  • RQ1在注释稀缺的情况下,双教师半监督设置是否能减少确认偏差并改善 AVSL 定位?
  • RQ2噪声筛选和伪标签交集(IPL)是否能显著提升伪标签质量,从而提升密集 AVSL 的性能?
  • RQ3双教师的暖身预训练如何影响最终定位精度以及跨数据集的泛化能力?
  • RQ4DMT 能否扩展以改善除其自身架构以外的现有 AVSL 方法?

主要发现

  • DMT 在 Flickr-SoundNet 与 VGG-Sound Source 上以 <3% 的定位标注实现了最先进的定位。
  • 在受限标签下,DMT 在所报道的基准测试中对先前方法达到 CIoU 提升约 10 个个百分点左右。
  • 消融研究表明,噪声筛选、IPL 和 EMA 共同提高了性能并抑制了确认偏差。
  • DMT 提升小目标定位,减少误报,并展示出强跨领域泛化能力,包括音乐相关数据集。
  • 将 DMT 扩展到现有 AVSL 方法可稳定提升它们的 CIoU 和 AUC 指标。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。