QUICK REVIEW

[論文レビュー] Are Pre-trained Language Models Aware of Phrases? Simple but Strong Baselines for Grammar Induction

Taeuk Kim, Jihun Choi|arXiv (Cornell University)|Jan 30, 2020

Natural Language Processing Techniques参考文献 43被引用数 46

ひとこと要約

この論文は、zero-shot の構成木を、注意分布の統計距離を用いて事前学習済み Transformer 言語モデルから誘導できることを示し、英語の文法誘導の強力なベースラインを得るとともに、英語統語構造のバイアスを明らかにする。

ABSTRACT

With the recent success and popularity of pre-trained language models (LMs) in natural language processing, there has been a rise in efforts to understand their inner workings. In line with such interest, we propose a novel method that assists us in investigating the extent to which pre-trained LMs capture the syntactic notion of constituency. Our method provides an effective way of extracting constituency trees from the pre-trained LMs without training. In addition, we report intriguing findings in the induced trees, including the fact that pre-trained LMs outperform other approaches in correctly demarcating adverb phrases in sentences.

研究の動機と目的

事前学習済み言語モデルが、訓練やタスク固有モジュールなしで、構成要素のような統語構造を捉えているかを調査する。
注意に基づく統語距離を用いて、事前学習済みLMから構成木を抽出する。
PTBとMNLIで英語文法誘導のベースラインとして誘導木を評価する。
どのLM層と注意ヘッドが句構造情報をエンコードしているかを分析する。
誘導木における英語の統語傾向を理解するために、右偏などのバイアスを探る。

提案手法

各単語をサブワード表現の平均で表し、各LM層の単語レベルのベクトルを得る。
隣接する語間の統語距離 d_i を、表現 g(w_i) と g(w_{i+1}) に対して選択した距離関数 f を用いて計算する。
訓練やタスク特化モジュールなしで、Shen ら (2018a,b) に従って距離ベクトル d から構成木を構築する。
性能比較のため、複数の f (COS, L1, L2, JSD, HEL) および g (層別表現、注意分布) オプションを使用する。
距離に右偏バイアスを任意に注入して英語の構成的嗜好を探索する（λ · AVG(d) · (1 - 線形項)）。
基礎・大規模構成の BERT-base/large、GPT-2、RoBERTa-base/large、XLNet-base/large の8モデル variant を横断して評価する。

実験結果

リサーチクエスチョン

RQ1事前学習済みLMはファインチューニングや追加コンポーネントなしで言語学的に妥当な構成木を生成できるか。
RQ2どのLM表現（層、注意ヘッド、またはそれらのアンサンブル）がゼロショット構成誘導を最もサポートするか。
RQ3距離ベースの木は、バイアスを加えると英語の右分岐傾向を捉えるか。
RQ4誘導解析は金標準のPTB木およびMNLI由来の解析と、ドメイン横断でどう比較されるか。
RQ5異なるLMは特にどの統語知識（例: SBAR, VP, ADJP, ADVP）を捉えるか。

主な発見

事前学習済みLMは追加訓練なしで英語文法誘導において競争力のある S-F1 を提供する。
統語距離に右偏バイアスを適用すると S-F1 が最大約10ポイント向上し、特に SBAR と VP で顕著。
注意ベースの距離 (G^d) は隠れ表現 (G^v) よりも解析性能が良いことが多い。
XLNetベースのモデルは層を問わずしばしば他を上回り、中間層が解析情報として最も有用であることが多い。
ADJPとADVP は特定のLMで特に良く拾われる一方、NPのRecallは高いが支配的ではない。
バイアスと大規模モデルの使用は一般的に有利で、層ごとの注意分布のアンサンブル平均は個別ヘッドよりも多くの場合優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。