Skip to main content
QUICK REVIEW

[論文レビュー] Learning Approximate Inference Networks for Structured Prediction

Lifu Tu, Kevin Gimpel|arXiv (Cornell University)|Feb 15, 2018
Topic Modeling被引用数 27
ひとこと要約

本稿では、構造化予測における構造的argmax推論を近似するためのニューラルネットワークの学習を提案し、勾配降下法の代わりに微分可能かつ推論ネットワークを用いる。エネルギー関数と推論ネットワークを大マージン基準を用いて同時に学習させることで、従来手法と比較して10–60倍の高速化を達成しながら、マルチラベル分類および系列ラベル付けの精度を向上させ、CRFや言語モデル拡張型モデルにおける高速推論を可能にする。

ABSTRACT

Structured prediction energy networks (SPENs; Belanger & McCallum 2016) use neural architectures to define energy functions that can capture arbitrary dependencies among parts of structured outputs. Prior work used gradient descent for inference, relaxing the structured output to a set of continuous variables and then optimizing the energy with respect to them. We replace this use of gradient descent with a neural trained to approximate structured argmax inference. This network outputs continuous values that we treat as the output structure. We develop large-margin training criteria for joint training of the structured energy function and inference network. On multi-label classification we report speed-ups of 10-60x compared to (Belanger et al, 2017) while also improving accuracy. For sequence labeling with simple structured energies, our approach performs comparably to exact inference while being much faster at test time. We then demonstrate improved accuracy by augmenting the energy with a language model that scores entire output label sequences, showing it can improve handling of long-distance dependencies in part-of-speech tagging. Finally, we show how inference networks can replace dynamic programming for test-time inference in conditional random fields, suggestive for their general use for fast inference in structured settings.

研究の動機と目的

  • 構造化予測における勾配ベース推論の計算ボトルネックを解消するため、反復的最適化の代わりにニューラル推論ネットワークを導入すること。
  • より良い一般化を実現するため、大マージン基準を用いて構造的エネルギー関数と推論ネットワークをエンドツーエンドで学習可能にする。
  • 精度を損なわずに、CRF や系列モデルなどの構造的モデルにおけるテスト時推論を高速化すること。
  • エネルギー関数に言語モデルを統合することで、構造的出力における長距離依存関係のモデリングを改善すること。

提案手法

  • 構造的エネルギー関数上のargmax推論を近似するように、ニューラルネットワークを直接構造的出力を予測するように学習する。
  • エネルギー関数と推論ネットワークの両方を正則化する大マージン基準を用いた微分可能で統合的な学習目的関数を定義する。
  • バックプロパゲーションを用いて、エネルギーネットワークと推論ネットワークの両方のパラメータを同時に最適化する。
  • テスト時予測において動的計画法の代わりに学習済み推論ネットワークを用いることで、CRFにおける予測を高速化する。
  • エネルギー関数に言語モデルを拡張して、ラベル列全体のスコアを評価し、長距離依存関係のモデリングを向上させる。
  • 推論ネットワークの出力を連続値として扱い、最終的な構造的予測を形成するためにその後で離散化する。

実験結果

リサーチクエスチョン

  • RQ1勾配降下法よりも効率的に構造的argmax推論を近似できるニューラルネットワークを学習できるか?
  • RQ2エネルギー関数と推論ネットワークを共同で学習させることで、精度と推論速度の両方が向上するか?
  • RQ3学習済み推論ネットワークは、CRFにおける動的計画法を効果的に置き換え、テスト時推論を高速化できるか?
  • RQ4エネルギー関数に言語モデルを統合することで、長距離依存関係を有するタスクでの性能がどの程度向上するか?
  • RQ5正確な推論をニューラル近似に置き換えた際の、速度と精度のトレードオフは何か?

主な発見

  • 提案手法は、マルチラベル分類ベンチマークにおいて、従来の勾配ベース推論手法と比較して10–60倍の高速化を達成しながら、精度も向上させた。
  • 単純な構造的エネルギー関数を用いた系列ラベル付けでは、正確な推論と同等の精度を達成したが、テスト時の実行時間が著しく短縮された。
  • エネルギー関数に言語モデルを拡張することで、特に長距離依存関係の捉え方において、品詞タグ付けの性能が向上した。
  • 推論ネットワークは、CRFにおける動的計画法を効果的に置き換え、高速かつスケーラブルなテスト時推論を可能にした。
  • 大マージン基準を用いた共同学習により、より良い一般化性能が得られ、構造的予測性能が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。