QUICK REVIEW

[論文レビュー] Autoregressive Structured Prediction with Language Models

Tianyu Liu, Yuchen Jiang|arXiv (Cornell University)|Jan 1, 2022

Topic Modeling被引用数 6

ひとこと要約

この論文では、名前付きエンティティ抽出、関係抽出、コアリソリューションなどの構造的予測タスクを、フラットな文字列ではなく構造構築アクションの逐次生成によってモデル化する、自己回帰的構造予測（ASP）というフレームワークを提案する。スパンの作成、バケットペアリング、ラベル付けといったアクションを通じて依存関係を明示的にモデル化することで、タスク固有の特徴量やデータオーグメンテーションを用いず、事前学習済み言語モデルを用いて、3つのタスクすべてで最先端の結果を達成した。

ABSTRACT

Recent years have seen a paradigm shift in NLP towards using pretrained language models ({PLM}) for a wide range of tasks. However, there are many difficult design decisions to represent structures (e.g. tagged text, coreference chains) in a way such that they can be captured by PLMs. Prior work on structured prediction with PLMs typically flattens the structured output into a sequence, which limits the quality of structural information being learned and leads to inferior performance compared to classic discriminative models. In this work, we describe an approach to model structures as sequences of actions in an autoregressive manner with PLMs, allowing in-structure dependencies to be learned without any loss. Our approach achieves the new state-of-the-art on all the structured prediction tasks we looked at, namely, named entity recognition, end-to-end relation extraction, and coreference resolution.

研究の動機と目的

構造的出力を文字列にフラット化することで生じる、言語モデルベースの構造的予測における構造内依存関係の隠蔽という限界を解消すること。
長距離およびネストされた依存関係が一般的な、コアリソリューションやエンドツーエンドの関係抽出といった、高度に構造化されたNLPタスクのパフォーマンスを向上させること。
事前学習済み言語モデルと互換性があり、一連の解釈可能なアクションを通じて構造的制約と依存関係を明示的にモデル化するフレームワークを開発すること。
データオーグメンテーションやタスク固有の特徴量設計を一切行わずに、名前付きエンティティ抽出、エンドツーエンドの関係抽出、コアリソリューションの3つのタスクで最先端のパフォーマンスを達成すること。

提案手法

ターゲット構造を、構造構築アクション、バケットペアリングアクション、スパンラベル付けアクションからなる三つ組 ⟨an, bn, zn⟩ からなるアクション列として表現する。
入力トークンからスパンを構築するための構造構築アクション（[∗（左括弧）、]（右括弧）、およびコピー）を用い、モデルが段階的に複雑でネストされた構造を構築できるようにする。
左括弧と右括弧を対応付けるバケットペアリングアクション Bn = {m | m < n ∧ am = [∗} を用い、文法的に整合性のある構造を保ち、探索空間を削減する。
スパンラベル付けアクション Zn = {m | m < n ∧ am = ]} × L を導入し、スパンやスパン間の関係をラベル付けることで、以前に構築されたスパンに基づいたラベル予測を可能にする。
自己回帰的にアクション列を予測するために事前学習済みの条件付き言語モデル（例：T5）を活用し、強力な文脈表現を活用できるようにする。
グリーディデコードを用いてアクション列を生成するが、今後はビームサーチや非自己回帰的デコードによる改善が可能である。

実験結果

リサーチクエスチョン

RQ1構造的予測を解釈可能な構造構築アクションの列としてモデル化することで、構造を文字列にフラット化する手法と比較してパフォーマンスが向上するか？
RQ2アクションを通じた構造内依存関係の明示的モデル化は、コアリソリューションのような長距離またはネストされた依存関係を有するタスクにおけるパフォーマンスにどのように影響するか？
RQ3同じ事前学習済み言語モデルを基盤とする統一フレームワークが、タスク固有の特徴量やデータオーグメンテーションを一切用いず、多様な構造的予測タスクで最先端の結果を達成できるか、その程度はどの程度か？
RQ4自己回帰的アクション生成プロセスは、複雑な構造的制約を捉える際に、判別モデルと比較してどのように異なるか？

主な発見

ASPはACE-05の統合エンティティおよび関係抽出タスクで新たな最先端を記録し、T5-baseモデルを用いてエンティティのテストF1スコアが91.3、関係のF1スコアが72.7を達成した。
CoNLL-12コアリソリューションベンチマークでは、FLAN-T5-XXLモデルを用いて平均F1スコア82.5を達成し、前回の最先端手法を1.5 F1ポイント上回った。
同じ事前学習済み言語モデルバックボーンを用いる判別モデルと比較して、ASPは顕著に優れた性能を示し、ブラックボックス予測よりも明示的な構造モデリングの利点を実証した。
データオーグメンテーションやタスク固有の特徴量設計を一切必要とせず、名前付きエンティティ抽出、エンドツーエンドの関係抽出、コアリソリューションの3つのタスクすべてで強力な結果を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。