QUICK REVIEW

[論文レビュー] Transfer Learning for Named-Entity Recognition with Neural Networks

Ji Young Lee, Franck Dernoncourt|arXiv (Cornell University)|May 17, 2017

Machine Learning in Healthcare参考文献 14被引用数 83

ひとこと要約

本論文は、大規模なラベル付き医療データセット（MIMIC）で訓練した LSTM ベースの NER モデルを、より小さな de-identification データセット（i2b2 2014/2016）へ転移することで、特にターゲットラベルが不足している場合に最先端の性能を改善することを示している。

ABSTRACT

Recent approaches based on artificial neural networks (ANNs) have shown promising results for named-entity recognition (NER). In order to achieve high performances, ANNs need to be trained on a large labeled dataset. However, labels might be difficult to obtain for the dataset on which the user wants to perform NER: label scarcity is particularly pronounced for patient note de-identification, which is an instance of NER. In this work, we analyze to what extent transfer learning may address this issue. In particular, we demonstrate that transferring an ANN model trained on a large labeled dataset to another dataset with a limited number of labels improves upon the state-of-the-art results on two different datasets for patient note de-identification.

研究の動機と目的

電子保健記録（EHR）の de-identification の動機づけとラベリングのボトルネック。
ラベルが限られたデータセットに対して転移学習がNER性能を改善するかを調査する。
転移で最も影響を与えるANNのパラメータと層を特定する。
MIMICをソースとして、2つの i2b2 de-identification データセットで転移学習を実証する。

提案手法

トークン埋め込みと文字埋め込みを用いた6コンポーネントのLSTMベースNERモデルを用いる。
大規模ソースデータセット（MIMIC）で訓練し、ターゲットデータセット（i2b2 2014/2016）でファインチューニングする。
全パラメータを転移する場合とパラメータのサブセットを転移する場合を比較する。
トークンLSTM層の前にドロップアウトを適用し、開発用データセットで早期停止を用いる。
F1スコアを用いて、ターゲットのみの訓練に対する改善を評価する。
実装のために NeuroNER フレームワークを拡張する。

実験結果

リサーチクエスチョン

RQ1大規模なラベル付き医療データセットからの転移学習は、小規模なPHIデータセットでNERの性能を改善するか？
RQ2ターゲットデータセットのサイズは転移学習による利得にどう影響するか？
RQ3デ-identificationのNERで、転移が成功するのに最も寄与するANNの層はどれか？
RQ4下位層のみを転移することは、ネットワーク全体を転移するのとほぼ同等の効果があるか？
RQ5転移学習に上位層を含めることは、ターゲットデータの性能を害する場合があるか？

主な発見

転移学習はターゲットのみの訓練よりF1スコアを一貫して改善し、ターゲットデータが不足しているときにより大きな利得がある。
i2b2 2014 では、転移学習を用いてターゲット訓練セットの16%を使用すると、転移なしでの34%とほぼ同等の性能になる。
i2b2 2014 では、訓練データが5%のとき、最大の利益は約3.1ポイント（90.12から93.21へ）だった。
ターゲット訓練セット全体を使用した場合でも、転移学習はわずかな利得をもたらす（例: 97.97 対 97.80）。
下位層のみを転移する（トークンLSTMまたは文字LSTMまで）ときに多くの場合顕著な利得が得られ、下位層が脱識別に関連する一般的な特徴を捉えていることを示唆している。
転移学習に上位層を追加しても性能を害することはなく、ターゲットデータセットへの適応を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。