QUICK REVIEW

[論文レビュー] Are Pre-trained Language Models Aware of Phrases? Simple but Strong Baselines for Grammar Induction

Taeuk Kim, Jihun Choi|arXiv (Cornell University)|Jan 30, 2020

Natural Language Processing Techniques参考文献 37被引用数 35

ひとこと要約

この論文は、注意機構からの統語距離を用いたゼロショットの方法で、事前学習済みTransformer言語モデルから構成木を誘導できることを示しており、英語の解析に対するバイアスが改善をもたらす；XLNetベースのモデルがLMの中で最も良い性能を示し、アプローチは英語の文法帰納における強力なベースラインを提供する。

ABSTRACT

With the recent success and popularity of pre-trained language models (LMs) in natural language processing, there has been a rise in efforts to understand their inner workings. In line with such interest, we propose a novel method that assists us in investigating the extent to which pre-trained LMs capture the syntactic notion of constituency. Our method provides an effective way of extracting constituency trees from the pre-trained LMs without training. In addition, we report intriguing findings in the induced trees, including the fact that pre-trained LMs outperform other approaches in correctly demarcating adverb phrases in sentences.

研究の動機と目的

事前学習済みLMが追加訓練なしで句構造情報を内包しているかを動機づけ、評価する。
ファインチューニングなしでLM表現と注意機構から構成木を抽出するゼロショット法を提案する。
LMの層と表現が句構造をどのように最もよく反映するかを分析する。
誘導木を英語の構文パターンに合わせるバイアス（例：右非対称性）の影響を調べる。

提案手法

事前学習済みLMの表現から隣接語間の統語距離を計算する（gはLM層から、fは距離測度）。
語を単語レベル入力と整合させるために、サブワード表現を平均化して各語を表現する。
Shenらに触発されたアルゴリズムを用いて、距離ベクトルから構成木を構築する。
BASEおよびLARGEのBERT、GPT-2、RoBERTa、XLNetを、COS、L1、L2、JSD、HELなどのさまざまな距離尺度で評価する。
木の形状と解析性能に影響を与えるよう、距離に右回りバイアスを注入する。

実験結果

リサーチクエスチョン

RQ1事前学習済みLMは、訓練なしで抽出可能な構成文法情報を本質的に含んでいるのか？
RQ2ゼロショット構成解析性能を最大化するLMのタイプ、層、表現はどれか？
RQ3距離関数の選択が解析品質に与える影響は何か、右寄りのバイアスは英語の右分岐傾向を改善できるか？
RQ4PTBおよびMNLIデータセットで誘導木が金標準の統語構造とどの程度一致するか？

主な発見

Model	f	L	A	S-F1	SBAR	NP	VP	PP	ADJP	ADVP
Baselines	-	-	-	-	-	-	-	-	-	-
Random Trees	-	-	-	18.1	8%	23%	12%	18%	23%	28%
Balanced Trees	-	-	-	18.5	7%	27%	8%	18%	27%	25%
Left Branching Trees	-	-	-	8.7	5%	11%	0%	5%	2%	8%
Right Branching Trees	-	-	-	39.4	68%	24%	71%	42%	27%	38%
Random XLNet-base (F^v)	-	-	-	19.6	9%	26%	12%	20%	23%	24%
Random XLNet-base (F^d)	-	-	-	20.1	11%	25%	14%	19%	22%	26%
Pre-trained LMs (w/o bias)	-	-	-	-	-	-	-	-	-	-
BERT-base	JSD	9	AVG	32.4	28%	42%	28%	31%	35%	63%
BERT-large	HEL	17	AVG	34.2	34%	43%	27%	39%	37%	57%
GPT2	JSD	9	1	37.1	32%	47%	27%	55%	27%	36%
GPT2-medium	JSD	10	13	39.4	41%	51%	21%	67%	33%	44%
RoBERTa-base	JSD	9	4	33.8	40%	38%	33%	43%	42%	57%
RoBERTa-large	JSD	14	5	34.1	29%	46%	30%	37%	28%	40%
XLNet-base	HEL	9	AVG	40.1	35%	56%	26%	38%	47%	68%
XLNet-large	L2	11	-	38.1	36%	51%	26%	41%	45%	69%
Pre-trained LMs (w/ bias λ=1.5)	-	-	-	-	-	-	-	-	-	-
BERT-base	HEL	9	AVG	42.3	45%	46%	49%	43%	41%	65%
BERT-large	HEL	17	AVG	44.4	55%	48%	48%	52%	41%	62%
GPT2	JSD	9	1	41.3	43%	49%	38%	58%	27%	43%
GPT2-medium	HEL	2	1	42.3	54%	50%	39%	56%	24%	41%
RoBERTa-base	JSD	8	AVG	42.1	51%	44%	44%	55%	40%	66%
RoBERTa-large	JSD	12	AVG	42.3	40%	50%	43%	44%	48%	56%
XLNet-base	HEL	7	AVG	48.3	62%	53%	50%	58%	49%	74%
XLNet-large	HEL	11	AVG	46.7	57%	50%	54%	50%	57%	73%

事前学習済みLMは、トレーニングなしで構成解析を促進するような、注意分布中の構文様式の証拠を提供する。
統語距離に右回りバイアスを適用すると、PTBでS-F1が約10ポイント程度向上することもある。
XLNetベースのモデルは、LM候補の中で通常最も良い解析性能を示し、中間層が最も情報豊富であることが多い。
注意ベースの距離測度（F^d）は、中間表現からの特徴（F^v）よりも解析結果を改善する傾向がある。
ADJPとADVPカテゴリはLMベースのアプローチで特に良く再捕捉され、時には従来の文法規則よりもリコールで優れる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。