[論文レビュー] Vision Transformer for Small-Size Datasets
この論文は Shifted Patch Tokenization (SPT) と Locality Self-Attention (LSA) を導入し、Vision Transformers により強い局所性の帰納バイアスを付与することで、小規模データセットからの学習を可能にし、Tiny-ImageNet や他の小規模ベンチマークでの性能を向上させる。
Recently, the Vision Transformer (ViT), which applied the transformer structure to the image classification task, has outperformed convolutional neural networks. However, the high performance of the ViT results from pre-training using a large-size dataset such as JFT-300M, and its dependence on a large dataset is interpreted as due to low locality inductive bias. This paper proposes Shifted Patch Tokenization (SPT) and Locality Self-Attention (LSA), which effectively solve the lack of locality inductive bias and enable it to learn from scratch even on small-size datasets. Moreover, SPT and LSA are generic and effective add-on modules that are easily applicable to various ViTs. Experimental results show that when both SPT and LSA were applied to the ViTs, the performance improved by an average of 2.96% in Tiny-ImageNet, which is a representative small-size dataset. Especially, Swin Transformer achieved an overwhelming performance improvement of 4.08% thanks to the proposed SPT and LSA.
研究の動機と目的
- 小規模データセットからの訓練時に Vision Transformers における局所性の帰納バイアスの欠如に対処する。
- トークン化の改善と局所的な注意機構を目的とした一般的な追加モジュール (SPT and LSA) を提案する。
- Tiny-ImageNet および CIFAR/CIFAR-100 での性能向上を示し、ImageNet のような中規模データセットへの影響を評価する。
提案手法
- 視覚トークンの受容野を拡張するため、トークン化前にパッチを空間的にシフトして連結する Shifted Patch Tokenization (SPT) を導入する。
- 対角マスキングを用いた Locality Self-Attention (LSA) を提案し、自己トークン注意を除去し、学習可能な softmax 温度を適用して局所的な注意を鋭化する。
- SPT を patch embedding および pooling 層に適用する方法を、ViTs への容易な追加として説明する。
- SPT と LSA の使用時に局所性の改善と物体形状の捕捉向上を示す定量的および定性的分析を提供する。
- 小規模データセットおよび ImageNet において、いくつかの ViT 変種 (ViT, PiT, Swin, CaiT) を対象に、SPT/LSA の有無で性能を比較する。
実験結果
リサーチクエスチョン
- RQ1ViTs は大規模事前学習なしで小規模データセットからスクラッチで学習できるか?
- RQ2SPT と LSA は局所性帰納バイアスを高め、ViT の変種全体で性能を改善するか?
- RQ3これらの方法は Tiny-ImageNet や CIFAR 系データセットの精度をどれだけ改善し、ImageNet のような中規模データセットへの影響はどれくらいか?
主な発見
- SPT と LSA の適用により、テスト済みの ViTs で Tiny-ImageNet の平均精度が 2.96% 改善される。
- 観測された最大の改善は Tiny-ImageNet で 4.08%(例: Swin Transformer)である。
- CIFAR-100 では、提案手法により CaiT と PiT がそれぞれ 3.43%、4.01% 向上する。
- Tiny-ImageNet では、ViT と Swin はそれぞれ最大で 4.00%、4.08% の改善を示す。
- ImageNet からのスクラッチ学習では、ViT が最大 1.60% (SL-ViT) および 1.44% (SL-PiT)を得て、Swin は最大 1.06% (SL-Swin)。
- アブレーションにより、学習可能な温度スケーリングと対角マスキングの双方が性能向上に寄与し、併用が相乗的な改善をもたらすことが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。