[论文解读] ST-Adapter: Parameter-Efficient Image-to-Video Transfer Learning
ST-Adapter 引入了一种轻量级时空适配器,将预训练的图像 ViT 用于视频动作识别,任务特定参数约占 ~8%,并且与完全微调相匹配或超越。
Capitalizing on large pre-trained models for various downstream tasks of interest have recently emerged with promising performance. Due to the ever-growing model size, the standard full fine-tuning based task adaptation strategy becomes prohibitively costly in terms of model training and storage. This has led to a new research direction in parameter-efficient transfer learning. However, existing attempts typically focus on downstream tasks from the same modality (e.g., image understanding) of the pre-trained model. This creates a limit because in some specific modalities, (e.g., video understanding) such a strong pre-trained model with sufficient knowledge is less or not available. In this work, we investigate such a novel cross-modality transfer learning setting, namely parameter-efficient image-to-video transfer learning. To solve this problem, we propose a new Spatio-Temporal Adapter (ST-Adapter) for parameter-efficient fine-tuning per video task. With a built-in spatio-temporal reasoning capability in a compact design, ST-Adapter enables a pre-trained image model without temporal knowledge to reason about dynamic video content at a small (~8%) per-task parameter cost, requiring approximately 20 times fewer updated parameters compared to previous work. Extensive experiments on video action recognition tasks show that our ST-Adapter can match or even outperform the strong full fine-tuning strategy and state-of-the-art video models, whilst enjoying the advantage of parameter efficiency. The code and model are available at https://github.com/linziyi96/st-adapter
研究动机与目标
- 研究从预训练图像模型到视频理解任务的参数高效迁移学习。
- 基准测试多种基于 ViT 主干的图像到视频迁移的微调策略。
- 提出一个时空适配器(ST-Adapter),在最小参数开销下实现时序推理。
- 证明 ST-Adapter 在动作识别数据集上可以达到甚至超过全微调和最先进的视频模型的性能。
提出的方法
- 将 ST-Adapter 引入到扩展 NLP Adapter 设计,加入时空瓶颈。
- 使用降投影、用于时空推理的逐通道三维卷积,以及在残差块中的升投影:ST-Adapter(X) = X + f(DWConv3D(XW_down))W_up.
- 将 X’ 从 [T, N, d] 重塑为 [T, h, w, d],以在应用 DWConv3D 之前进行时空处理。
- 在每个 Transformer 块的多头自注意力(MHSA)之前放置一个 ST-Adapter 以实现整合。
- 使用标准算子以确保实现简单性和部署效率。
- 保持较小的参数占用 (~2% 的额外参数) 和低计算开销。
实验结果
研究问题
- RQ1预训练的图像模型是否可以在不进行完全微调的情况下高效适配视频任务?
- RQ2与全面微调和其他参数高效方法相比,时空适配器在视频动作识别任务上的性能如何?
- RQ3ST-Adapter 在从图像域迁移到视频域时能否实现有效的时序推理?
主要发现
- ST-Adapter 使用在 CLIP 上预训练的 ViT-B/16,在 Kinetics-400 上达到 82.0% Top-1,在 Something-Something-v2 上达到 66.3%,在仅更新 7.2M 参数而非 121.57M 的情况下,达到或超过全量微调的性能。
- ST-Adapter 的表现优于其他高效微调方法(如提示微调、部分微调)。
- 在不同数据集上,ST-Adapter 以显著更少的更新参数和更低的训练成本提供强劲的准确性,超越了许多使用相同骨干初始化的最先进视频模型。
- 消融实验表明对瓶颈宽度具有鲁棒性,在 MHSA 之前的有效放置,以及在 ViT 块中使用更深的适配器有益;深度卷积核中的时域跨度对性能至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。