QUICK REVIEW

[論文レビュー] FedNER: Medical Named Entity Recognition with Federated Learning

Suyu Ge, Fangzhao Wu|arXiv (Cornell University)|Mar 20, 2020

Topic Modeling参考文献 31被引用数 24

ひとこと要約

FedNERは、医療プラットフォーム間で生データを共有せずにプライバシーを守りながら協調学習を可能にするフェデレーテッドラーニングフレームワークを提案する。モデルを共有モジュールとプライベートモジュールに分解し、局所的な勾配を集約してグローバル共有モジュールを更新することで、データの非独立同分布性とプライバシー制約を尊重しながら、多様なデータセットにおけるNER性能を向上させる。

ABSTRACT

Medical named entity recognition (NER) has wide applications in intelligent healthcare. Sufficient labeled data is critical for training accurate medical NER model. However, the labeled data in a single medical platform is usually limited. Although labeled datasets may exist in many different medical platforms, they cannot be directly shared since medical data is highly privacy-sensitive. In this paper, we propose a privacy-preserving medical NER method based on federated learning, which can leverage the labeled data in different platforms to boost the training of medical NER model and remove the need of exchanging raw data among different platforms. Since the labeled data in different platforms usually has some differences in entity type and annotation criteria, instead of constraining different platforms to share the same model, we decompose the medical NER model in each platform into a shared module and a private module. The private module is used to capture the characteristics of the local data in each platform, and is updated using local labeled data. The shared module is learned across different medical platform to capture the shared NER knowledge. Its local gradients from different platforms are aggregated to update the global shared module, which is further delivered to each platform to update their local shared modules. Experiments on three publicly available datasets validate the effectiveness of our method.

研究の動機と目的

個々の医療プラットフォームにおけるラベル付き医療データの不足という課題に対処すること。
機密患者データを共有せずに、医療NERモデルの協調学習を可能にすること。
エンティティタイプやアノテーション基準の違いに起因する、プラットフォーム間でのデータ非同一性を扱うこと。
データプライバシーを保ちながら、分散ラベル付きデータを活用してNER性能を向上させること。
共有知識とプラットフォーム固有の特性を分離するモデルアーキテクチャの開発

提案手法

医療NERモデルを、各プラットフォームごとの共有モジュールとプライベートモジュールに分解する。
各プラットフォームで自らのラベル付きデータを用いてプライベートモジュールを局所的に学習させ、ローカルデータの特徴を捉える。
全プラットフォームの局所的勾配を集約し、共通のNER知識を捉えるグローバル共有モジュールを更新する。
更新されたグローバル共有モジュールを各プラットフォームに配布し、局所的な最適化を実施する。
全参加プラットフォームからの寄与に基づいてグローバルモデルを更新するため、フェデレーテッドアベレージを採用する。
柔軟にローカルデータ分布に適応可能でありながら、プラットフォーム間での知識共有を維持できるモジュラーアーキテクチャを採用する。

実験結果

リサーチクエスチョン

RQ1生データを共有せずに、フェデレーテッドラーニングアプローチが医療NER性能を効果的に向上させられるか。
RQ2共有モジュールとプライベートモジュールにモデルを分解することで、非同一な医療データ環境下での性能にどのような影響を与えるか。
RQ3フェデレーテッドトレーニングは、医療プラットフォーム間でのデータ分布シフトに起因する性能低下をどの程度緩和できるか。
RQ4提案手法は、医療NERベンチマークにおいて、集中型および非フェデレーテッドアプローチを上回る性能を示すか。
RQ5異なる医療機関におけるエンティティタイプやアノテーション基準の変動に対して、モデルはどの程度頑健か。

主な発見

FedNERは、データ共有を一切行わず分散ラベル付きデータを活用することで、3つの公的医療NERデータセットで優れた性能を達成した。
共有モジュールとプライベートモジュールへのモデル分解は、共通のパターンとプラットフォーム固有のパターンの両方を効果的に捉えた。
フェデレーテッドトレーニングプロセスは、データプライバシーを守りながら、プラットフォーム間での知識集約に成功した。
ローカルデータ分布がプラットフォーム間で著しく異なる場合でも、性能向上が観察された。
医療機関間でのエンティティタイプやアノテーション基準の差異に対しても、本手法は頑健であることが示された。
グローバル共有モジュールは、多様な医療テキストソース間で転送可能なNER特徴を学習することで、一般化性能を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。