Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Compose Words into Sentences with Reinforcement Learning

Dani Yogatama, Phil Blunsom|arXiv (Cornell University)|Nov 28, 2016
Topic Modeling参考文献 20被引用数 44
ひとこと要約

本稿では、強化学習を用いて文の表現のためのタスク固有の潜在的木構造的合成法則を学習する手法を提案する。Tree LSTMと方策ネットワークを組み合わせ、構文解析の行動を最適化する。この手法は、感情分析、自然言語推論、意味的類似度、文生成の4つのタスクにおいて、左から右へのRNNおよび構文監視付き木構造モデルを上回り、言語的に直感的だが非標準的な構文構造を発見した。

ABSTRACT

We use reinforcement learning to learn tree-structured neural networks for computing representations of natural language sentences. In contrast with prior work on tree-structured models in which the trees are either provided as input or predicted using supervision from explicit treebank annotations, the tree structures in this work are optimized to improve performance on a downstream task. Experiments demonstrate the benefit of learning task-specific composition orders, outperforming both sequential encoders and recursive encoders based on treebank annotations. We analyze the induced trees and show that while they discover some linguistically intuitive structures (e.g., noun phrases, simple verb phrases), they are different than conventional English syntactic structures.

研究の動機と目的

  • 固定または言語学的にアノテートされた構造に依存するのではなく、タスク固有の合成順序を発見することで、文表現学習を改善すること。
  • 強化学習が、従来の逐次的または構文的モデルよりも一般化性能に優れた階層的文構造を誘導できるかどうかを調査すること。
  • 下流NLPタスクにおける自己発見された木構造の言語学的妥当性と性能を分析すること。
  • 訓練中にセマンティックフィードバックを用いることで、無教師文法誘導や固定アーキテクチャに比べてより効果的な構成アーキテクチャが得られるかどうかを評価すること。

提案手法

  • モデルは、強化学習で訓練された方策ネットワークによって制御される、シフト・リダクションパーサー・アーキテクチャを有するTree LSTMを用いる。
  • 方策ネットワークは、各文の潜在的解析木を構築するために、行動(シフトまたはリダクション)を選択する。最終的な文表現は、誘導された木のルートから得られる。
  • 強化学習は、分類の正答率や生成タスクにおけるPerplexityなど、下流タスクのパフォーマンスから得られる報酬信号を最適化することで実行される。
  • モデルは、変動する木構造のため、例ごとに計算グラフを再構築しながら、ポリシー勾配法を用いてエンドツーエンドで訓練される。
  • 教師なしで木構造が推論されるため、標準的な英語構文から逸脱し、代替の合成順序を発見できる。
  • 本手法は、感情分析、意味的類似度、自然言語推論、文生成の4つのタスクで評価され、RNN、固定順序モデル、構文監視付きモデルと比較される。

実験結果

リサーチクエスチョン

  • RQ1固定された左から右への順序や構文アノテーション付き木構造と比較して、強化学習が下流NLPタスクのパフォーマンスを向上させる合成順序を発見できるか?
  • RQ2モデルが学習する構文構造はどのようなものか?言語学的に直感的で、人間がアノテートした構文木と比較して、構造的類似度や言語的直感性はいかがなっているか?
  • RQ3タスク固有の報酬に基づく合成順序の学習が、無教師文法誘導や固定アーキテクチャに比べて、より良い一般化性能をもたらすか?
  • RQ4事前に定義された合成順序を持つモデルと比較して、潜在的構文モデルの性能は、多様なNLPタスクでどのように異なるか?

主な発見

  • 潜在的構文モデルは、感情分析、意味的類似度、自然言語推論、文生成の4つの下流タスクすべてにおいて、左から右へのRNNおよび構文監視付き木構造モデルを上回った。
  • SNLIおよびStanford Sentiment Treebankデータセットでは、誘導された木構造が、それぞれ41.73および40.51の非ラベル付きブレケットF1スコアを達成し、標準的な構文木よりも左枝構造に近い傾向を示した。
  • モデルは、名詞句(例:'a boy'、'his sleds')や簡単な動詞句(例:'wearing sunglasses'、'is frowning')といった言語学的に直感的な構造を発見したが、一部の合成は直感的でなかった。
  • 文生成タスクでは、単語Perplexityが99.0を達成し、監視付き構文モデル(100.8)および準監視付き構文モデル(98.4)を上回り、生成品質が優れていた。
  • 例ごとのグラフ再構築とポリシー勾配サンプリングのため、大規模データセット(SNLIやIMDB)では収束までに3〜4日もかかった。
  • 明示的な構文監視がなくても、誘導された木構造は全体的に左枝構造の傾向を示しており、左から右への処理に有利なタスクで優れたパフォーマンスを発揮した要因である可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。