[論文レビュー] Are Pre-trained Language Models Aware of Phrases? Simple but Strong Baselines for Grammar Induction
この論文は、注意機構からの統語距離を用いたゼロショットの方法で、事前学習済みTransformer言語モデルから構成木を誘導できることを示しており、英語の解析に対するバイアスが改善をもたらす;XLNetベースのモデルがLMの中で最も良い性能を示し、アプローチは英語の文法帰納における強力なベースラインを提供する。
With the recent success and popularity of pre-trained language models (LMs) in natural language processing, there has been a rise in efforts to understand their inner workings. In line with such interest, we propose a novel method that assists us in investigating the extent to which pre-trained LMs capture the syntactic notion of constituency. Our method provides an effective way of extracting constituency trees from the pre-trained LMs without training. In addition, we report intriguing findings in the induced trees, including the fact that pre-trained LMs outperform other approaches in correctly demarcating adverb phrases in sentences.
研究の動機と目的
- 事前学習済みLMが追加訓練なしで句構造情報を内包しているかを動機づけ、評価する。
- ファインチューニングなしでLM表現と注意機構から構成木を抽出するゼロショット法を提案する。
- LMの層と表現が句構造をどのように最もよく反映するかを分析する。
- 誘導木を英語の構文パターンに合わせるバイアス(例:右非対称性)の影響を調べる。
提案手法
- 事前学習済みLMの表現から隣接語間の統語距離を計算する(gはLM層から、fは距離測度)。
- 語を単語レベル入力と整合させるために、サブワード表現を平均化して各語を表現する。
- Shenらに触発されたアルゴリズムを用いて、距離ベクトルから構成木を構築する。
- BASEおよびLARGEのBERT、GPT-2、RoBERTa、XLNetを、COS、L1、L2、JSD、HELなどのさまざまな距離尺度で評価する。
- 木の形状と解析性能に影響を与えるよう、距離に右回りバイアスを注入する。
実験結果
リサーチクエスチョン
- RQ1事前学習済みLMは、訓練なしで抽出可能な構成文法情報を本質的に含んでいるのか?
- RQ2ゼロショット構成解析性能を最大化するLMのタイプ、層、表現はどれか?
- RQ3距離関数の選択が解析品質に与える影響は何か、右寄りのバイアスは英語の右分岐傾向を改善できるか?
- RQ4PTBおよびMNLIデータセットで誘導木が金標準の統語構造とどの程度一致するか?
主な発見
| Model | f | L | A | S-F1 | SBAR | NP | VP | PP | ADJP | ADVP |
|---|---|---|---|---|---|---|---|---|---|---|
| Baselines | - | - | - | - | - | - | - | - | - | - |
| Random Trees | - | - | - | 18.1 | 8% | 23% | 12% | 18% | 23% | 28% |
| Balanced Trees | - | - | - | 18.5 | 7% | 27% | 8% | 18% | 27% | 25% |
| Left Branching Trees | - | - | - | 8.7 | 5% | 11% | 0% | 5% | 2% | 8% |
| Right Branching Trees | - | - | - | 39.4 | 68% | 24% | 71% | 42% | 27% | 38% |
| Random XLNet-base (F^v) | - | - | - | 19.6 | 9% | 26% | 12% | 20% | 23% | 24% |
| Random XLNet-base (F^d) | - | - | - | 20.1 | 11% | 25% | 14% | 19% | 22% | 26% |
| Pre-trained LMs (w/o bias) | - | - | - | - | - | - | - | - | - | - |
| BERT-base | JSD | 9 | AVG | 32.4 | 28% | 42% | 28% | 31% | 35% | 63% |
| BERT-large | HEL | 17 | AVG | 34.2 | 34% | 43% | 27% | 39% | 37% | 57% |
| GPT2 | JSD | 9 | 1 | 37.1 | 32% | 47% | 27% | 55% | 27% | 36% |
| GPT2-medium | JSD | 10 | 13 | 39.4 | 41% | 51% | 21% | 67% | 33% | 44% |
| RoBERTa-base | JSD | 9 | 4 | 33.8 | 40% | 38% | 33% | 43% | 42% | 57% |
| RoBERTa-large | JSD | 14 | 5 | 34.1 | 29% | 46% | 30% | 37% | 28% | 40% |
| XLNet-base | HEL | 9 | AVG | 40.1 | 35% | 56% | 26% | 38% | 47% | 68% |
| XLNet-large | L2 | 11 | - | 38.1 | 36% | 51% | 26% | 41% | 45% | 69% |
| Pre-trained LMs (w/ bias λ=1.5) | - | - | - | - | - | - | - | - | - | - |
| BERT-base | HEL | 9 | AVG | 42.3 | 45% | 46% | 49% | 43% | 41% | 65% |
| BERT-large | HEL | 17 | AVG | 44.4 | 55% | 48% | 48% | 52% | 41% | 62% |
| GPT2 | JSD | 9 | 1 | 41.3 | 43% | 49% | 38% | 58% | 27% | 43% |
| GPT2-medium | HEL | 2 | 1 | 42.3 | 54% | 50% | 39% | 56% | 24% | 41% |
| RoBERTa-base | JSD | 8 | AVG | 42.1 | 51% | 44% | 44% | 55% | 40% | 66% |
| RoBERTa-large | JSD | 12 | AVG | 42.3 | 40% | 50% | 43% | 44% | 48% | 56% |
| XLNet-base | HEL | 7 | AVG | 48.3 | 62% | 53% | 50% | 58% | 49% | 74% |
| XLNet-large | HEL | 11 | AVG | 46.7 | 57% | 50% | 54% | 50% | 57% | 73% |
- 事前学習済みLMは、トレーニングなしで構成解析を促進するような、注意分布中の構文様式の証拠を提供する。
- 統語距離に右回りバイアスを適用すると、PTBでS-F1が約10ポイント程度向上することもある。
- XLNetベースのモデルは、LM候補の中で通常最も良い解析性能を示し、中間層が最も情報豊富であることが多い。
- 注意ベースの距離測度(F^d)は、中間表現からの特徴(F^v)よりも解析結果を改善する傾向がある。
- ADJPとADVPカテゴリはLMベースのアプローチで特に良く再捕捉され、時には従来の文法規則よりもリコールで優れる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。