Skip to main content
QUICK REVIEW

[論文レビュー] When Ensembling Smaller Models is More Efficient than Single Large Models

Dan Kondratyuk, Mingxing Tan|arXiv (Cornell University)|May 1, 2020
Domain Adaptation and Few-Shot Learning参考文献 11被引用数 24
ひとこと要約

この論文は、同じサイズの小さなモデルをアンサンブル化することで、単一の大規模モデルを訓練するよりも、より高い精度を達成しつつ、FLOPsを少なくできることが示されている。これは、大規模モデルが常にアンサンブルを上回るとの従来の考え方に挑戦するものである。主な発見は、モデルアンサンブルが、特にモデルサイズが大きくなるにつれて、出力の多様性が向上し、過学習が軽減されるため、精度と速度のトレードオフにおいてより効率的であるということである。

ABSTRACT

Ensembling is a simple and popular technique for boosting evaluation performance by training multiple models (e.g., with different initializations) and aggregating their predictions. This approach is commonly reserved for the largest models, as it is commonly held that increasing the model size provides a more substantial reduction in error than ensembling smaller models. However, we show results from experiments on CIFAR-10 and ImageNet that ensembles can outperform single models with both higher accuracy and requiring fewer total FLOPs to compute, even when those individual models' weights and hyperparameters are highly optimized. Furthermore, this gap in improvement widens as models become large. This presents an interesting observation that output diversity in ensembling can often be more efficient than training larger models, especially when the models approach the size of what their dataset can foster. Instead of using the common practice of tuning a single large model, one can use ensembles as a more flexible trade-off between a model's inference speed and accuracy. This also potentially eases hardware design, e.g., an easier way to parallelize the model across multiple workers for real-time or distributed inference.

研究の動機と目的

  • 大規模な単一モデルが常にアンサンブルを上回るとの仮定を疑問視すること。
  • 小さなモデルのアンサンブルが、精度とFLOP効率の両面で単一の大規模モデルを上回る可能性があるかどうかを調査すること。
  • モデルスケーリングの代替手段として、アンサンブルがより柔軟でハードウェアにやさしい選択肢である可能性を検討すること。
  • アンサンブルにおけるアーキテクチャの多様性が、同一モデルのアンサンブルを上回る性能をもたらすかどうかを評価すること。

提案手法

  • 同じモデルアーキテクチャ(CIFAR-10におけるWide ResNets、ImageNetにおけるEfficientNets)を異なるランダム初期化で複数回訓練した。
  • アンサンブル形成のため、予測値を幾何平均で平均化した。n個のモデルに対しては、要素ごとの乗算と根をとる操作を用いる:$\mu = (y_1 y_2 \dots y_n)^{1/n}$。
  • さまざまなモデルサイズにおいて、単一モデルとアンサンブルの両方のトップ-1精度と合計FLOPsを測定した。
  • 神経アーキテクチャ探索(NAS)を用い、アンサンブル内での多様なアーキテクチャを探索するための共同探索空間を活用した。並列推論を可能にするために、最大遅延をペナルティとして課した。
  • NASの報酬関数を最適化し、精度を優先しつつ、アンサンブル内の最遅いモデルの遅延を制約することで、リアルタイム実行の可能性を確保した。
  • 完全収束までの全訓練を10エポックで停止し、固定された遅延制約下での性能を比較するため、探索されたモデルを訓練および評価した。

実験結果

リサーチクエスチョン

  • RQ1小さなモデルのアンサンブルは、FLOPsを少なくしつつ、単一の大規模モデルを上回る精度を達成できるか?
  • RQ2モデルサイズが大きくなるにつれて、アンサンブルと単一モデルの性能差が広がるか?
  • RQ3アンサンブルにおけるアーキテクチャの多様性が、同一モデルのアンサンブルを上回る性能をもたらすか?
  • RQ4遅延制約がある実世界のデプロイにおいて、モデルスケーリングの代替手段としてアンサンブルはより効率的かつスケーラブルか?

主な発見

  • CIFAR-10およびImageNetの両データセットにおいて、小さなモデルのアンサンブルは、合計FLOPsを少なくしつつ、単一の大規模モデルを上回るトップ-1精度を達成した。
  • モデルサイズが大きくなるにつれて、アンサンブルと単一モデルの性能差が広がった。これは、スケールが大きくなるとアンサンブルの効率性が顕著になることを示している。
  • CIFAR-10では、幅k=1,2,4,8のWide ResNetアンサンブルが、同等またはより大きなFLOP数を持つ単一モデルを常に上回った。
  • ImageNetでは、最大3モデルのEfficientNetアンサンブルが、同等の最大遅延を持つ単一モデルと同等またはそれ以上の精度を達成した。
  • 広範なNASによる多様なアーキテクチャ探索にもかかわらず、同じ遅延制約下で、同一モデルのアンサンブルが多様なアーキテクチャを用いたアンサンブルを常に上回った。
  • 最も高い性能を示したアンサンブルは、最も正確な単一モデルアーキテクチャを複製することで得られた。これは、この設定下ではモデルの正確性がアーキテクチャの多様性を上回ることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。