QUICK REVIEW

[论文解读] MMViT: Multiscale Multiview Vision Transformers

Yuchen Liu, Natasha Ong|arXiv (Cornell University)|Apr 28, 2023

Music and Audio Processing被引用 8

一句话总结

MMViT 在 transformer 主干中引入多尺度特征图与多视图编码，通过跨注意力在不同视图之间融合以提升音频和图像分类性能。

ABSTRACT

We present Multiscale Multiview Vision Transformers (MMViT), which introduces multiscale feature maps and multiview encodings to transformer models. Our model encodes different views of the input signal and builds several channel-resolution feature stages to process the multiple views of the input at different resolutions in parallel. At each scale stage, we use a cross-attention block to fuse information across different views. This enables the MMViT model to acquire complex high-dimensional representations of the input at different resolutions. The proposed model can serve as a backbone model in multiple domains. We demonstrate the effectiveness of MMViT on audio and image classification tasks, achieving state-of-the-art results.

研究动机与目标

在变换器中引入多尺度特征层次，以在不同分辨率下捕获复杂表示。
引入多视图输入和跨注意力，在每个尺度上融合来自不同输入视图的信息。
展示 MMViT 作为音频与图像分类任务的通用骨干。
证明 MMViT 在公开数据集上达到最先进结果，并讨论对其他模态的迁移性。

提出的方法

将图片和音频的输入表示为二维图像（音频为对数梅尔特征）。
通过选择性核/步幅选择，在不同分辨率下将输入切分为两个视图并产生重叠补丁。
为两个视图计算可学习的时空位置编码，并在视图1前置一个 CLS 标记。
通过四个尺度阶段处理输入，这些阶段包含自注意力、跨注意力（用于融合视图）以及缩放的自注意力，以在降低分辨率的同时增加通道数。
在下采样前，在每个尺度阶段利用跨注意力块在视图之间融合信息；在自注意力块中使用多头池化注意力。
采用标准数据增强与音频专用增强（Mixup、CutMix、音频 CutMix、SpecAugment、Random Roll），并对音频适配进行 ImageNet1K 权重的预训练。

实验结果

研究问题

RQ1多尺度、多视图的变换器架构是否能提升音频与图像分类的表示质量？
RQ2在每个尺度阶段的视图之间使用跨注意力相较于单视图或非跨注意力基线是否有可度量的提升？
RQ3在标准基准上，MMViT 相对于最先进的音频与图像变换器的表现如何？
RQ4是否存在一个单一的 MMViT 主干可在视觉到音频任务的迁移中实现跨模态适配？

主要发现

模型	数据集	mAP
AST	balance	31.8
MViTv2	balance	32
MMViT	balance	32.2
AST	full	37.2
MViTv2	full	42.4
MMViT	full	43

MMViT 在平衡 AudioSet 上达到 32.2% mAP，在完整 AudioSet 上达到 43% mAP，相较于在所报告设置中的 AST 与 MViTv2 基线具有优势。
MMViT 在完整 Audioset 上达到 43% mAP，超过 AST 基线的 37.2% 与 MViTv2 基线的 42.4%。
在 ImageNet1K 上，MMViT 达到 83.2% Top-1 准确率，超过 MViTv2 的 82.7%。
使用三个输入视图会略微降低准确率至 82.3%，表明添加视图可能需要更强的正则化。
音频 CutMix 对防止 MMViT 音频实验的过拟合至关重要；若不使用它，相关的 mAP 在消融中会降至 39%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。