[論文レビュー] Federated pretraining and fine tuning of BERT using clinical notes from multiple silos
本稿では、複数の医療機関の臨床ノートから生データを共有せずに、BERTを事前学習および微調整するためのフェデレーテッドラーニングフレームワークを提案する。MIMIC-III退院要約を用いて、データサイロ間で分散的にBERTモデルを学習することで、特に事前学習をフェデレーテッドで、微調整を集中型で行う場合に、競争力ある性能を達成した。これは、プライバシーを守りながら臨床NLPを実現する可能性を示している。
Large scale contextual representation models, such as BERT, have significantly advanced natural language processing (NLP) in recently years. However, in certain area like healthcare, accessing diverse large scale text data from multiple institutions is extremely challenging due to privacy and regulatory reasons. In this article, we show that it is possible to both pretrain and fine tune BERT models in a federated manner using clinical texts from different silos without moving the data.
研究の動機と目的
- 複数の医療機関の臨床テキストから生データを移管せずに、BERTのプライバシーを守る事前学習を可能にすること。
- フェデレーテッドラーニングが、臨床ノートにおけるドメイン特有の言語的パターンを効果的に捉えられるかを調査すること。
- 名前付きエンティティ認識(NER)のような下流NLPタスクにおけるフェデレーテッド微調整の性能を評価すること。
- フェデレーテッドトレーニングの性能を集中型トレーニングと比較し、『フェデレーテッド通信損失』を定量化すること。
- フェデレーテッドと集中型のBERTモデルにおける注意メカニズムの比較を通じて、モデルの挙動とベースBERTとの類似性を評価すること。
提案手法
- 患者単位でランダムに分割することで、MIMIC-III退院要約データセットを仮想の5つの医療サイロに分割した。
- 臨床テキスト用に、Alsentzerら(2019)の前処理およびトークナイゼーションパイプラインを適応した。
- すべてのサイロで同一のBERTモデルを初期化し、各ラウンド後にグローバルパラメータ平均化を用いてフェデレーテッドモデルアグリゲーションを実施した。
- サイロ間でラベルなし臨床ノートを用いて、マスク言語モデル化を用いてフェデレーテッド事前学習を実施した。
- 各拠点でモデル更新を集約する形で、ラベル付きi2b2データセットを用いてNERのフェデレーテッド微調整を実施した。
- 注意ヘッドの挙動を比較するために、Jensen-Shannonダイバージェンスと注意エントロピーを用いた。
実験結果
リサーチクエスチョン
- RQ1複数の独立した医療機関の臨床ノートを用いて、フェデレーテッドな方法でBERTを効果的に事前学習できるか?
- RQ2フェデレーテッドBERTモデルの性能は、i2b2 2010 NERタスクのような下流の臨床NLPタスクにおいて、集中型で学習されたモデルと比べてどうか?
- RQ3異なるデータサイロで事前学習と微調整を分離することによるモデル性能への影響は何か?
- RQ4フェデレーテッドBERTモデルにおける注意メカニズムは、集中型およびベースBERTモデルと比べてどのように異なるか?
- RQ5フェデレーテッドラーニングが、臨床テキストにおけるドメイン特有の言語的特性をどの程度保持できるか?
主な発見
- 複数のサイロからの臨床ノートを用いたフェデレーテッド事前学習により、i2b2 2010 NERタスクでF1スコア0.808、i2b2 2012で0.715を達成し、データ共有なしで実現可能であることを示した。
- 事前学習をフェデレーテッドで、微調整を集中型で行った場合、i2b2 2010でF1スコア0.820、i2b2 2012で0.735を達成し、完全な集中型学習と比較して約5%の低下にとどまった。
- 事前学習を集中型で、微調整をフェデレーテッドで行った場合、F1スコアは2%未満の低下(i2b2 2010で0.843、i2b2 2012で0.731)にとどまり、微調整は分散化に対してより頑健であることが示された。
- 事前学習と微調整の両方をフェデレーテッドで行った場合、F1スコアはi2b2 2010で0.808、i2b2 2012で0.715となり、集中型学習と比較して約6%の性能低下が生じた。
- 注意解析の結果、フェデレーテッド臨床BERTモデルは、ベースBERTモデルと高いスピアマン相関(0.96)を示したが、集中型臨床BERTモデルとは低い相関(0.27)であった。これは、ベースBERTに類似した注意パターンをより多く保持していることを示唆している。
- フェデレーテッド臨床BERTとベースBERT間のJensen-Shannonダイバージェンス距離は8153.26であったのに対し、フェデレーテッドと集中型臨床BERT間の距離は314.38にとどまり、注意挙動が集中型モデルに近いことが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。