QUICK REVIEW

[論文レビュー] Multiscale Deep Equilibrium Models

Shaojie Bai, Vladlen Koltun|arXiv (Cornell University)|Jun 15, 2020

Markov Chains and Monte Carlo Methods参考文献 63被引用数 53

ひとこと要約

MDEQは浅い、暗黙的、マルチスケール平衡モデルを導入し、複数解像度にわたる同期平衡を解くことで、トレーニング中のメモリを一定に保ちつつ競争力のあるImageNet分類とCityscapesセグメンテーションを実現する。

ABSTRACT

We propose a new class of implicit networks, the multiscale deep equilibrium model (MDEQ), suited to large-scale and highly hierarchical pattern recognition domains. An MDEQ directly solves for and backpropagates through the equilibrium points of multiple feature resolutions simultaneously, using implicit differentiation to avoid storing intermediate states (and thus requiring only $O(1)$ memory consumption). These simultaneously-learned multi-resolution features allow us to train a single model on a diverse set of tasks and loss functions, such as using a single MDEQ to perform both image classification and semantic segmentation. We illustrate the effectiveness of this approach on two large-scale vision tasks: ImageNet classification and semantic segmentation on high-resolution images from the Cityscapes dataset. In both settings, MDEQs are able to match or exceed the performance of recent competitive computer vision models: the first time such performance and scale have been achieved by an implicit deep learning approach. The code and pre-trained models are at https://github.com/locuslab/mdeq .

研究の動機と目的

マルチスケール構造を明示的な深層スタックなしに処理できるビジョンのモデルクラスを提案する。
暗黙的で単一段階のアーキテクチャを開発し、複数解像度を平衡状態で同時に維持する。
補助損失を異なるスケールで用いることで複数タスクの共同学習を可能にする（例: ImageNetでの事前学習とセグメンテーションでのファインチューニング）。
メモリを効率的に管理しつつ大規模なビジョンタスクへの暗黙的モデルのスケーラビリティを示す。
実用的なトレーニングダイナミクスと、一般的なDL手法のMDEQへの適合性を調査する。

提案手法

複数解像度を並置して維持し、それらを共同平衡へと駆動する multiscale変換f_thetaを定義する。
最も高解像度ストリームの入力xのみを注入して、スケール間のフローを結合する。
固定点ソルバー（メモリ制限付きブロイデン）を用いて全スケールの平衡z*を見つける。
グループ正規化を用いた残差ブロックベースの各スケールモジュールと、解像度間の特徴を混ぜるマルチスケール融合ステップを用いる。
Jacobian-ベクトル積（陰関数微分）を介した平衡を介して微分可能な逆伝播を提供する。
複数スケールで補助損失を許可して多タスク学習と転移を可能にする（例: ImageNetでの事前学習とセグメンテーションでのファインチューニング）。

実験結果

リサーチクエスチョン

RQ1Explicitなレイヤスタックを省く暗黙的モデルは、視覚のような豊かなマルチスケール構造を持つタスクで競争力のある精度を達成できるか。
RQ2同時多スケール平衡は、高レベルのラベルと密な予測の両方を単一モデルでサポートできるか。
RQ3メモリ効率の良い暗黙ソルバーは、大規模なビジョンタスクでexplicitアーキテクチャと比較してどの程度性能を発揮するか。
RQ4高解像度データでの安定な訓練のために必要な実用的適応（正規化、ドロップアウト、初期化）は何か。
RQ5一つのMDEQモデルを別タスクに補助損失を用いてどの程度他タスクへ転移できるか。

主な発見

MDEQはImageNet分類で、同等のパラメータ数の競合的な明示モデルと同等またはそれを上回る性能を顕在化する。
Cityscapesでは、MDEQは高いmIoUを達成し、より大きなモデルは最先端の性能に近づく一方、明示的なバックボーンよりメモリを少なく使う。
小さいMDEQ（18M）は、同規模のいくつかの明示モデルよりImageNetとCIFAR-10で優れた性能を示し、マルチスケール暗黙モデリングの効果を示す。
Limited-memoryブロイデン法での訓練はメモリ効率を維持し、メガピクセル規模での訓練を可能にする。
MDEQは、浅い暗黙モデルが大規模な視覚タスクに拡張でき、層ごとの深さを大きく増やさなくても競争力のある精度を提供できることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。