[論文レビュー] Structured Prediction as Translation between Augmented Natural Languages
TANLは多様な構造化予測タスクを拡張された自然言語間の翻訳として再定義し、共通のアーキテクチャと入力を用いて単一の生成モデルが複数のNLPタスクで最先端の成果を達成できるようにする。
We propose a new framework, Translation between Augmented Natural Languages (TANL), to solve many structured prediction language tasks including joint entity and relation extraction, nested named entity recognition, relation classification, semantic role labeling, event extraction, coreference resolution, and dialogue state tracking. Instead of tackling the problem by training task-specific discriminative classifiers, we frame it as a translation task between augmented natural languages, from which the task-relevant information can be easily extracted. Our approach can match or outperform task-specific models on all tasks, and in particular, achieves new state-of-the-art results on joint entity and relation extraction (CoNLL04, ADE, NYT, and ACE2005 datasets), relation classification (FewRel and TACRED), and semantic role labeling (CoNLL-2005 and CoNLL-2012). We accomplish this while using the same architecture and hyperparameters for all tasks and even when training a single model to solve all tasks at the same time (multi-task learning). Finally, we show that our framework can also significantly improve the performance in a low-resource regime, thanks to better use of label semantics.
研究の動機と目的
- 単一の生成モデルフレームワークの下で多様な構造化予測タスクを統一する動機。
- タスク固有の識別子ではなく拡張された自然言語を用いることによって潜在的なラベル意味論を活用する。
- 同じアーキテクチャとハイパーパラメータで複数のSPタスクに対して競合的または最先端の性能を示す。
- ラベル意味論の転送を改善することによって低リソース領域での利点を示す。
- いくつかのSPタスクにわたるマルチタスクおよび単一モデルの学習を探る。)
提案手法
- 構造化情報を入力/出力テキストにエンコードする拡張された自然言語を設計する。
- 事前学習済みのTransformerモデル(T5-base)を用いて、タスク間で同じアーキテクチャを適用し、SPタスクをテキスト間の翻訳としてフレーミングする。
- 出力構造を入力トークンへ頑健に結びつけるためのDPベースのアライメント(Needleman-Wunsch)を実装する。
- NER、結合エンティティ/関係抽出、SRL、コアリファレンス、DST などのタスク固有の出力形式を、統一された翻訳パラダイムの中で提供する。
- データセット/タスク識別子(例: ‘ade:’)で入力をプレフィックスして、複数のデータセットで単一モデルを訓練するマルチタスク学習を可能にする。
実験結果
リサーチクエスチョン
- RQ1単一の生成モデルでタスク固有のモジュールを用いずに複数の構造化予測タスクを解決できるか?
- RQ2拡張された自然語を用いてタスク意味論をエンコードすることは転送を改善するか、特に低リソース設定で?
- RQ3多様なSPタスクに対するマルチタスク学習は、単一タスクモデルと比較して性能はどうか?
- RQ4生成的TANLアプローチはネストされたエンティティや任意のリレーショングラフのような複雑な構造を効果的にサポートできるか?
主な発見
- TANLはエンティティ抽出と関係抽出の結合において最先端の成果を達成する(CoNLL04、ADE、NYT、ACE2005)
- TANLはリレーション分類(FewRelとTACRED)および意味役割付与(CoNLL-2005とCoNLL-2012)で最先端の成果を達成する。
- 複数タスクにわたって訓練された単一モデル(マルチタスク)は、評価データセットで単一タスクモデルと同等かそれ以上の性能を示す。
- 低リソース領域では、ラベル意味論のより良い活用によってTANLが大幅な改善を示す。
- 生成されたシーケンスの出力尤度は、判別的評価シナリオにおけるクラススコアの頑健な代理指標となり得る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。