Skip to main content
QUICK REVIEW

[論文レビュー] One Model To Learn Them All

Łukasz Kaiser, Aidan N. Gomez|arXiv (Cornell University)|Jun 16, 2017
Multimodal Machine Learning Applications参考文献 20被引用数 257
ひとこと要約

本論文は、視覚・言語・音声・構文解析の8つの多様なタスクで共同訓練された単一の深層モデルである MultiModel を提案し、転移学習とドメイン跨ぎの利得を示している。

ABSTRACT

Deep learning yields great results across many fields, from speech recognition, image classification, to translation. But for each problem, getting a deep model to work well involves research into the architecture and a long period of tuning. We present a single model that yields good results on a number of problems spanning multiple domains. In particular, this single model is trained concurrently on ImageNet, multiple translation tasks, image captioning (COCO dataset), a speech recognition corpus, and an English parsing task. Our model architecture incorporates building blocks from multiple domains. It contains convolutional layers, an attention mechanism, and sparsely-gated layers. Each of these computational blocks is crucial for a subset of the tasks we train on. Interestingly, even if a block is not crucial for a task, we observe that adding it never hurts performance and in most cases improves it on all tasks. We also show that tasks with less data benefit largely from joint training with other tasks, while performance on large tasks degrades only slightly if at all.

研究の動機と目的

  • 複数のドメインにわたるタスクを処理できる統一型深層学習モデルの構築を動機づける。
  • 多様な計算ブロックを用いた共有ボディとモダリティ特有のネットを組み合わせた MultiModel アーキテクチャを提案する。
  • 8つのコーパスを横断した学習を実証し、共有ブロックがタスクとデータ規模にどのように転移するかを分析する。
  • 共同訓練と単一タスク訓練の影響、および注意機構とミクスチャー・オブ・エキスパート Blocks の必要性を調査する。

提案手法

  • 異なるモダリティからの入力を共有表現空間へマッピングするモダリティネットを導入する。
  • 畳み込み、注意、および疎にゲートされたミクスチャー・オブ・エキスパートブロックからなるボディを用いて処理と出力を生成する。
  • ByteNet/WaveNet に似た自己回帰型・完全畳み込みの encoder–m mixer–decoder フレームワークを、ドメイン横断ブロックとともに採用する。
  • WSJ 音声、ImageNet、COCO キャプション、WSJ 構文解析、WMT EN→DE、DE→EN、EN→FR、FR→DE の翻訳の8つのコーパスを共同訓練する。
  • 各モダリティ内のタスク間でパラメータを共有して一般化を促進し、新しいタスクをその場で追加できるようにする。

実験結果

リサーチクエスチョン

  • RQ18つの多様なタスクで訓練された単一モデルは、個々のタスクで最先端の結果にどれだけ近づけるか?
  • RQ2同等の計算資源で各タスクを個別に訓練した場合と、8タスクを jointly 訓練した場合の比較は?
  • RQ3どの計算ブロック(注意、ミクスチャー・オブ・エキスパーツ)が異なるタスクで性能に寄与しているか?
  • RQ4共同訓練時に、見かけ上無関係なドメイン間(例:ImageNet と構文解析)でのクロスドメイントランスファーは生じるか?

主な発見

問題MultiModel(共同8問題)最先端
ImageNet (top-5 accuracy)86%95%
WMT EN → DE (BLEU)21.226.0
WMT EN → FR (BLEU)30.540.5
  • 8タスクを用いた MultiModel は競争力のある結果を達成するが、まだ最先端ではない(ImageNet top-5 86%、WMT EN→DE 21.2 BLEU、WMT EN→FR 30.5 BLEU)。
  • 8タスクの共同訓練は大規模タスクで単一タスク訓練と同等の性能を示し、構文解析のようなデータが乏しいタスクでは上回ることができる。
  • ミクスチャー・オブ・エキスパーツと注意ブロックを含めることは、一般にタスク全体の性能を向上させるか、少なくとも悪化させない。どちらかを除くと性能が低下することがある。
  • クロスドメイン転移が観察される;ImageNet での構文解析を訓練する、または 8タスクで訓練することは、構文解析だけを訓練する場合より改善をもたらす。
  • タスクは共有されたモダリティネットと統一表現から恩恵を受け、新しいタスクをその場で追加でき、データ豊富なタスクからデータ不足タスクへの正の転移を促進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。