QUICK REVIEW

[論文レビュー] Measuring Compositionality in Representation Learning

Jacob Andreas|arXiv (Cornell University)|Feb 19, 2019

Natural Language Processing Techniques参考文献 47被引用数 24

ひとこと要約

本稿では、観測された表現を再構築するために推論された原始的要素の最適化によって、微分可能で自動化された方法であるtreを導入し、学習済み表現の構成性を測定する手法を提示する。高まる構成性は一般化性能の向上と相関するが、同時に全体的な性能の低下とも相関しており、表現設計におけるトレードオフが生じていることが示唆される。

ABSTRACT

Many machine learning algorithms represent input data with vector embeddings or discrete codes. When inputs exhibit compositional structure (e.g. objects built from parts or procedures from subroutines), it is natural to ask whether this compositional structure is reflected in the the inputs' learned representations. While the assessment of compositionality in languages has received significant attention in linguistics and adjacent fields, the machine learning literature lacks general-purpose tools for producing graded measurements of compositional structure in more general (e.g. vector-valued) representation spaces. We describe a procedure for evaluating compositionality by measuring how well the true representation-producing model can be approximated by a model that explicitly composes a collection of inferred representational primitives. We use the procedure to provide formal and empirical characterizations of compositional structure in a variety of settings, exploring the relationship between compositionality and learning dynamics, human judgments, representational similarity, and generalization.

研究の動機と目的

ベクトル空間や離散的コード空間における学習済み表現の構成性を、一般用途で利用可能で自動的かつ定量的な方法として測定すること。
訓練過程における構成性の変化と、一般化や表現的類似性といった他のモデル特性との関係を評価すること。
分布外一般化にための構成的表現が必須であるかどうかを評価すること。
手動的またはドメイン特化された分析に依存せずに、形式的でスケーラブルかつ再現可能なフレームワークを提供すること。

提案手法

treは、原始的意味表現を隠れ変数とみなして、微分可能で構成的なモデルを用いて観測された表現を再構築するように最適化することで、構成性を測定する。
勾配降下法を用いて、原始的ベクトルと構成操作（例：和、束縛）の集合を最適化し、再構築誤差を最小化する。
入力文字列における部分的トークン数の許容を可能にすることで、連続的表現に一般化し、離散的演算を逆伝播可能にする。
単純な論理積、スパースな（属性, 値）ペア、非可換な文字列生成など、さまざまな構成タイプをサポートする。
訓練実行の自動マイニングを可能にし、高・低構成性かつ良好な一般化を示すモデルを特定できる。

実験結果

リサーチクエスチョン

RQ1表現における構成性は訓練プロセスの中でどのように変化し、他の測定可能なモデルダイナミクスとどのように関係するか？
RQ2モデルの構成性は、入力における人間の構成的構造の判断とどの程度一致するか？
RQ3構成性は表現的類似性をどの程度制約するのか？また、treは他の類似性ベースの分析手法と比較してどう異なるか？
RQ4分布外入力への効果的な一般化には、構成的表現が不可欠であるか？

主な発見

treで測定された構成性は、一般化誤差の著しい低減と相関しており（p < 1e-6）、分布シフトに対するロバスト性が向上していることを示唆する。
より高いtre値は、絶対的性能の著しい低下とも強く相関しており（p < 1e-9）、構成的モデルがしばしば非最適な通信戦略から生じることを示唆している。
報酬 > 0.5 の成功した訓練実行に限定しても、treと一般化誤差の間の相関は依然として有意（p < 1e-3）であり、treと性能の間の相関も有意（p < 0.05）である。
図6に示すように、本手法は構成性が高く一般化性能も優れた言語を効果的に同定した。それぞれのトレーニング/テスト報酬（0.78/0.61 と 0.75/0.59）が類似している中で、tre値が4.30と2.96である。
低treモデルはしばしば自明な戦略（例：入力に依存しない固定出力）に対応しており、構造的単純さにもかかわらず性能が低いことが説明できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。