[论文解读] Token Merging: Your ViT But Faster
Token Merging (ToMe) 通过使用快速二部匹配过程将相似标记合并,从而加速 Vision Transformers,在图像、视频和音频任务的吞吐量提高到大约 2x(视频为 2.2x),且精度损失很小,且可在有无训练的情况下使用,覆盖图像、视频和音频任务。
We introduce Token Merging (ToMe), a simple method to increase the throughput of existing ViT models without needing to train. ToMe gradually combines similar tokens in a transformer using a general and light-weight matching algorithm that is as fast as pruning while being more accurate. Off-the-shelf, ToMe can 2x the throughput of state-of-the-art ViT-L @ 512 and ViT-H @ 518 models on images and 2.2x the throughput of ViT-L on video with only a 0.2-0.3% accuracy drop in each case. ToMe can also easily be applied during training, improving in practice training speed up to 2x for MAE fine-tuning on video. Training with ToMe further minimizes accuracy drop, leading to 2x the throughput of ViT-B on audio for only a 0.4% mAP drop. Qualitatively, we find that ToMe merges object parts into one token, even over multiple frames of video. Overall, ToMe's accuracy and speed are competitive with state-of-the-art on images, video, and audio.
研究动机与目标
- 在不进行大规模再训练或架构修改的前提下,推动更快的 ViT 推理与训练。
- 引入一个简单的 token-merging 模块,通过减少每个 transformer 层的标记数量来提高吞吐量。
- 实现对图像、视频和音频的适用性,同时保持有竞争力的准确性。
- 提供一个轻量级、可并行的合并算法,适用于现成模型。
提出的方法
- 在每个 transformer 块的 attention 与 MLP 分支之间插入 token merging 步骤。
- 使用 attention keys 的点积相似度来定义 token 相似性,以选择要合并的候选项。
- 使用快速的双分性软匹配通过按 token 大小加权平均特征来合并 token。
- 采用比例注意力以考虑合并后的 token 代表多个输入补丁的情况。
- 可选地通过将合并视为池化并在合并的 token 上反向传播来训练 ToMe。
- 探索恒定和递减的合并计划,以控制跨层移除的 token 总量。
实验结果
研究问题
- RQ1一个轻量级的 token-merge 模块是否可以在不重新训练的情况下显著提高 ViT 吞吐量,同时保持最小的精度损失?
- RQ2应如何匹配和合并 token 以在图像、视频和音频模态中保持信息内容?
- RQ3合并计划和特征选择对不同 ViT 模型和预训练方案的加速和准确性有何影响?
- RQ4ToMe 在推理阶段和训练阶段以及跨多模态场景中是否都有效?
主要发现
- ToMe 可以在图像上将最先进的 ViT-L@512 与 ViT-H@518 的吞吐量大约翻倍,准确率损失约为 0.2–0.3%。
- 在视频上,ToMe 在没有训练的情况下使 ViT-L 的吞吐量约为 2.2x,且精度损失只有 0.2–0.3%。
- 在视频的 MAE 微调中,如用 ToMe 训练,训练速度提升可达约 2x。
- 在音频方面,使用 MAE 预训练的 ViT-B 上,ToMe 约实现 2x 吞吐量提升,mAP 下降约 0.4%。
- ToMe 将跨帧的对象部件合并,并可在视频中执行部件跟踪,同时合并背景与前景信息且不会造成较大精度下降。
- ToMe 在图像、视频和音频领域与最先进的方法相竞争,且不需要额外的训练技巧或新参数。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。