QUICK REVIEW

[論文レビュー] Fixing the train-test resolution discrepancy

Hugo Touvron, Andrea Vedaldi|arXiv (Cornell University)|Jun 14, 2019

Advanced Neural Network Applications参考文献 44被引用数 23

ひとこと要約

この論文は、データオーグメンテーションによる分布シフトの影響で、低解像度で訓練した場合にテスト時の性能が向上する、画像分類におけるトレーニング・テスト解像度の不一致を扱っている。低解像度で訓練されたモデルを高解像度のテストに適応させる軽量なファインチューニング手法を提案し、224×224で訓練されたResNeXt-101 32x48dモデルを320×320でファインチューニングすることで、ImageNetで86.4%という最先端のトップ1精度を達成した。

ABSTRACT

Data-augmentation is key to the training of neural networks for image classification. This paper first shows that existing augmentations induce a significant discrepancy between the typical size of the objects seen by the classifier at train and test time. We experimentally validate that, for a target test resolution, using a lower train resolution offers better classification at test time. We then propose a simple yet effective and efficient strategy to optimize the classifier performance when the train and test resolutions differ. It involves only a computationally cheap fine-tuning of the network at the test resolution. This enables training strong classifiers using small training images. For instance, we obtain 77.1% top-1 accuracy on ImageNet with a ResNet-50 trained on 128x128 images, and 79.8% with one trained on 224x224 image. In addition, if we use extra training data we get 82.5% with the ResNet-50 train with 224x224 images. Conversely, when training a ResNeXt-101 32x48d pre-trained in weakly-supervised fashion on 940 million public images at resolution 224x224 and further optimizing for test resolution 320x320, we obtain a test top-1 accuracy of 86.4% (top-5: 98.0%) (single-crop). To the best of our knowledge this is the highest ImageNet single-crop, top-1 and top-5 accuracy to date.

研究の動機と目的

画像分類におけるトレーニングとテストの解像度が異なることによる分布シフトを特定し、解決すること。
トレーニングデータとテストデータの解像度を一致させることで、モデルの一般化性能とテスト時の精度を向上させること。
低解像度のトレーニングクロップを用いることで、より高速で効率的なトレーニングを可能にしつつ、高いテスト精度を維持すること。
事前学習済みモデルをトレーニング後に高解像度のテスト解像度に適応させる、計算コストが低い手法を開発すること。

提案手法

トレーニングのための低解像度（例：128×128 や 160×160）で分類器を訓練し、トレーニング時間とメモリ使用量を削減する。
テスト時に、より高解像度のクロップ（例：224×224 や 320×320）を用いて実際の画像コンテンツに近づける。
最終の全結合層とバッチ正則化層のみをファインチューニングし、モデルを新しい解像度に適応させる。
トレーニング中に標準的なデータオーグメンテーションを適用するが、スケールのばらつきを低減するため、分類領域（RoC）のサンプリングを調整する。
大規模な弱教師ありデータセットで事前学習されたモデルを活用し、解像度適応を施して性能を向上させる。
標準的および大規模なモデル（ResNet-50、PNASNet-5-Large、ResNeXt-101 32x48dを含む）にこの手法を適用する。

実験結果

リサーチクエスチョン

RQ1トレーニングと推論の間で解像度に差があると、画像分類のモデル性能に影響を与えるか？
RQ2低解像度でトレーニングしても、入力解像度が低くてもテスト時の精度が向上するか？
RQ3テスト解像度での単純なファインチューニング手順が、解像度の不一致を補うことができるか？
RQ4提案手法が標準的および大規模なモデルの両方で性能向上をもたらすか？
RQ5この手法は、高解像度のテスト入力を持つ転移学習の設定でも効果的に適用可能か？

主な発見

128×128でトレーニングしたResNet-50は、ImageNetでトップ1精度77.1%を達成し、標準的な224×224でのトレーニングを上回った。
320×320のテスト解像度でファインチューニングしたResNet-50は、トップ1精度79.8%を達成し、解像度適応の有効性を示した。
9億4000万枚の224×224画像で事前学習されたResNeXt-101 32x48dモデルを320×320でファインチューニングしたところ、ImageNetで86.4%のトップ1精度を達成し、新たなSOTAを樹立した。
iNaturalist、Stanford Cars、Oxford-102 Flowersといった複数の転移学習ベンチマークで性能向上が確認された。
性能向上は解像度が高くなるほど顕著で、画像品質が向上するに従い重要性が増す傾向が示された。
この手法により、顕著なトレーニングスピードアップ（例：解像度を半分にした場合に3倍速）とメモリ使用量の削減が可能であり、最終的な精度を損なわずに実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。