[論文レビュー] Understanding Why ViT Trains Badly on Small Datasets: An Intuitive Perspective
この論文は、 Vision Transformer (ViT) が小規模データセット(CIFAR-10/100)で ResNet-18 と比べて性能が低く、SVHN では同等に近いと実証的に示し、表現分析の計画を概説している。
Vision transformer (ViT) is an attention neural network architecture that is shown to be effective for computer vision tasks. However, compared to ResNet-18 with a similar number of parameters, ViT has a significantly lower evaluation accuracy when trained on small datasets. To facilitate studies in related fields, we provide a visual intuition to help understand why it is the case. We first compare the performance of the two models and confirm that ViT has less accuracy than ResNet-18 when trained on small datasets. We then interpret the results by showing attention map visualization for ViT and feature map visualization for ResNet-18. The difference is further analyzed through a representation similarity perspective. We conclude that the representation of ViT trained on small datasets is hugely different from ViT trained on large datasets, which may be the reason why the performance drops a lot on small datasets.
研究の動機と目的
- ViT が小規模データセットで ResNet-18 などのCNNと比べて性能が劣ることを実証する。
- 制御された設定で CIFAR-10, CIFAR-100, SVHN における ViT と ResNet-18 の性能を比較する。
- 小規模データでの ViT の過小適合の直感的説明と、視覚的・定量的な証拠を提供する。
- 小規模データセットにおける ViT の失敗モードを理解するための表現解析の基礎を築く。
提案手法
- ViT(6 層エンコーダ、8 ヘッド、64次元ヘッド、64 次元 MLP、ドロップアウト 0.1)と ResNet-18 を CIFAR-10、CIFAR-100、SVHN で、同一のハイパーパラメータ(lr=1e-4、バッチ=100、Adam、500 エポック)で訓練する。
- データ拡張(パディング4付きのランダムクロップ、水平反転)を用い、ピクセル正規化は行わず、入力をモデル間で標準化する。
- ViT のパラメータ数約9.6Mに合わせて、ResNet-18 ベースライン(11.5M パラメータ)と比較する。
- トップ1精度を報告し、トレーニング/テストのlossと精度を wandb の可視化で追跡する。
- 直感を支えるために、注意機構とフォワード伝播のビジュアルを介した定性的観察を提供する。

実験結果
リサーチクエスチョン
- RQ1なぜ ViT は ResNet のような CNN より小規模データセットでパフォーマンスが劣るのか?
- RQ2データセットサイズが ViT と CNN の性能にどう影響するか、そしてこのギャップを直感的に説明できるか?
- RQ3表現の単純な定性的・定量的分析(例:アテンションパターン、フォワード伝播)は、ViT の小データでの失敗モードを明らかにするか?
- RQ4限られたデータで ViT が苦戦する理由を照らす経験的方向性(例:CKAを用いた表現解析)とは?
主な発見
| データセット | ViT accuracy (%) | ResNet18 accuracy (%) |
|---|---|---|
| CIFAR-10 | 81.36 | 92.8 |
| CIFAR-100 | 54.31 | 70.7 |
| SVHN | 95.17 | 95.78 |
- CIFAR-10 および CIFAR-100 では、ViT は ResNet-18 よりも著しく精度が低い(CIFAR-10 で ViT: 81.36% 対 ResNet-18: 92.8%、CIFAR-100 で ViT: 54.31% 対 ResNet-18: 70.7%)。
- SVHN では ViT と ResNet-18 の性能はほぼ同等だが(ViT: 95.17% 対 ResNet-18: 95.78%)、ViT の収束はより遅い。
- 小規模データセットで ViT が劣るという主張を支持する結果で、より難易度の高いクラス分布データ(CIFAR-100)では SVHN より相対的な性能が弱くなる。
- 著者らは ViT と CNN の局所および全体的な表現を分析するために CKA を用いて学習サイズの違いによる学習の差異を説明する予定である。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。