Skip to main content
QUICK REVIEW

[論文レビュー] Are Pre-trained Language Models Aware of Phrases? Simple but Strong Baselines for Grammar Induction

Taeuk Kim, Jihun Choi|arXiv (Cornell University)|Jan 30, 2020
Natural Language Processing Techniques参考文献 37被引用数 35
ひとこと要約

この論文は、注意機構からの統語距離を用いたゼロショットの方法で、事前学習済みTransformer言語モデルから構成木を誘導できることを示しており、英語の解析に対するバイアスが改善をもたらす;XLNetベースのモデルがLMの中で最も良い性能を示し、アプローチは英語の文法帰納における強力なベースラインを提供する。

ABSTRACT

With the recent success and popularity of pre-trained language models (LMs) in natural language processing, there has been a rise in efforts to understand their inner workings. In line with such interest, we propose a novel method that assists us in investigating the extent to which pre-trained LMs capture the syntactic notion of constituency. Our method provides an effective way of extracting constituency trees from the pre-trained LMs without training. In addition, we report intriguing findings in the induced trees, including the fact that pre-trained LMs outperform other approaches in correctly demarcating adverb phrases in sentences.

研究の動機と目的

  • 事前学習済みLMが追加訓練なしで句構造情報を内包しているかを動機づけ、評価する。
  • ファインチューニングなしでLM表現と注意機構から構成木を抽出するゼロショット法を提案する。
  • LMの層と表現が句構造をどのように最もよく反映するかを分析する。
  • 誘導木を英語の構文パターンに合わせるバイアス(例:右非対称性)の影響を調べる。

提案手法

  • 事前学習済みLMの表現から隣接語間の統語距離を計算する(gはLM層から、fは距離測度)。
  • 語を単語レベル入力と整合させるために、サブワード表現を平均化して各語を表現する。
  • Shenらに触発されたアルゴリズムを用いて、距離ベクトルから構成木を構築する。
  • BASEおよびLARGEのBERT、GPT-2、RoBERTa、XLNetを、COS、L1、L2、JSD、HELなどのさまざまな距離尺度で評価する。
  • 木の形状と解析性能に影響を与えるよう、距離に右回りバイアスを注入する。

実験結果

リサーチクエスチョン

  • RQ1事前学習済みLMは、訓練なしで抽出可能な構成文法情報を本質的に含んでいるのか?
  • RQ2ゼロショット構成解析性能を最大化するLMのタイプ、層、表現はどれか?
  • RQ3距離関数の選択が解析品質に与える影響は何か、右寄りのバイアスは英語の右分岐傾向を改善できるか?
  • RQ4PTBおよびMNLIデータセットで誘導木が金標準の統語構造とどの程度一致するか?

主な発見

ModelfLAS-F1SBARNPVPPPADJPADVP
Baselines----------
Random Trees---18.18%23%12%18%23%28%
Balanced Trees---18.57%27%8%18%27%25%
Left Branching Trees---8.75%11%0%5%2%8%
Right Branching Trees---39.468%24%71%42%27%38%
Random XLNet-base (F^v)---19.69%26%12%20%23%24%
Random XLNet-base (F^d)---20.111%25%14%19%22%26%
Pre-trained LMs (w/o bias)----------
BERT-baseJSD9AVG32.428%42%28%31%35%63%
BERT-largeHEL17AVG34.234%43%27%39%37%57%
GPT2JSD9137.132%47%27%55%27%36%
GPT2-mediumJSD101339.441%51%21%67%33%44%
RoBERTa-baseJSD9433.840%38%33%43%42%57%
RoBERTa-largeJSD14534.129%46%30%37%28%40%
XLNet-baseHEL9AVG40.135%56%26%38%47%68%
XLNet-largeL211-38.136%51%26%41%45%69%
Pre-trained LMs (w/ bias λ=1.5)----------
BERT-baseHEL9AVG42.345%46%49%43%41%65%
BERT-largeHEL17AVG44.455%48%48%52%41%62%
GPT2JSD9141.343%49%38%58%27%43%
GPT2-mediumHEL2142.354%50%39%56%24%41%
RoBERTa-baseJSD8AVG42.151%44%44%55%40%66%
RoBERTa-largeJSD12AVG42.340%50%43%44%48%56%
XLNet-baseHEL7AVG48.362%53%50%58%49%74%
XLNet-largeHEL11AVG46.757%50%54%50%57%73%
  • 事前学習済みLMは、トレーニングなしで構成解析を促進するような、注意分布中の構文様式の証拠を提供する。
  • 統語距離に右回りバイアスを適用すると、PTBでS-F1が約10ポイント程度向上することもある。
  • XLNetベースのモデルは、LM候補の中で通常最も良い解析性能を示し、中間層が最も情報豊富であることが多い。
  • 注意ベースの距離測度(F^d)は、中間表現からの特徴(F^v)よりも解析結果を改善する傾向がある。
  • ADJPとADVPカテゴリはLMベースのアプローチで特に良く再捕捉され、時には従来の文法規則よりもリコールで優れる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。