QUICK REVIEW

[論文レビュー] Transfer Learning for Sequence Tagging with Hierarchical Recurrent Networks

Zhilin Yang, Ruslan Salakhutdinov|arXiv (Cornell University)|Mar 18, 2017

Topic Modeling参考文献 20被引用数 230

ひとこと要約

この論文は階層的再帰ネットワークを用いたニューラル系列ラベラーの転移学習を研究し、三つのパラメータ共有アーキテクチャを提案して、クロスドメイン、クロスアプリケーション、クロス言語転移を可能にし、複数のベンチマークで改善と新しい最先端結果を達成している。

ABSTRACT

Recent papers have shown that neural networks obtain state-of-the-art performance on several different sequence tagging tasks. One appealing property of such systems is their generality, as excellent performance can be achieved with a unified architecture and without task-specific feature engineering. However, it is unclear if such systems can be used for tasks without large amounts of training data. In this paper we explore the problem of transfer learning for neural sequence taggers, where a source task with plentiful annotations (e.g., POS tagging on Penn Treebank) is used to improve performance on a target task with fewer available annotations (e.g., POS tagging for microblogs). We examine the effects of transfer learning for deep hierarchical recurrent networks across domains, applications, and languages, and show that significant improvement can often be obtained. These improvements lead to improvements over the current state-of-the-art on several well-studied tasks.

研究の動機と目的

関連タスク間で転移学習がニューラル系列ラベラーの性能向上に寄与し得るかを調査する。
クロスドメイン、クロスアプリケーション、クロス言語転移のための統一的なパラメータ共有フレームワークを提案する。
言語、ドメイン、アプリケーション間で異なる層/パラメータを共有することが転移効果にどのように影響するかを評価する。
複数のベンチマークデータセットでベースラインと最先端を上回る改善を示す。

提案手法

CRF出力層を供給する文字レベルGRUと単語レベルGRUを備えた基礎的なニューラル系列ラベリングモデル。
ソースタスクとターゲットタスク間で異なるサブセットのネットワークパラメータを共有する3つの転送アーキテクチャ（T-A、T-B、T-C）。
共有パラメータとタスク固有パラメータを用いた二タスク目的関数による結合学習; AdaGradを用いた勾配法による最適化。
3つのタスク転送設定: クロスドメイン（ラベル対応を含む可能性あり）、ラベルが異なるクロスドメイン（T-B）、クロスアプリケーション、形態的に類似する文字表現を共有して行うクロス言語転移（T-C）。
訓練手順はソースタスクとターゲットタスクの間を交互に行い、共有パラメータとタスク固有パラメータの双方を更新する。ターゲットタスクで早期ストッピングを行う。

実験結果

リサーチクエスチョン

RQ1高資源のソースタスクで学習したニューラル系列ラベラーは、転移学習を通じて低資源のターゲットタスクの性能を改善できるか。
RQ2パフォーマンスとパラメータ共有の観点から、クロスドメイン、クロスアプリケーション、クロス言語転移はどのように比較されるか。
RQ3モデルの構成要素をより多く共有する場合と少なくする場合で転移効果にどのような影響があるか。
RQ4転移学習モデルは標準的な系列ラベリングベンチマークで最先端の結果を達成するか。

主な発見

転移学習はターゲットタスクの性能を非転移ベースラインより一貫して向上させ、特に低いラベリング率で顕著である。
PTB POS または CoNLL NER から Genia や Twitter へのクロスドメイン転移は大幅な利得をもたらし、最小限のラベルデータでも高い精度を達成する。
クロスアプリケーションおよびクロス言語転移も低リソース条件下で有意な改善を提供する。
三つのアーキテクチャはパフォーマンスの順序に従い、T-A > T-B > T-C を示し、共有パラメータの量を反映する。
このアプローチは複数のベンチマークで新しい最先端を達成し、ベースモデルは転移なしでも競争力がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。