[論文レビュー] Biomedical and Clinical Language Models for Spanish: On the Benefits of Domain-Specific Pretraining in a Mid-Resource Scenario
本稿では、混合ドメイン(生物学的および臨床的)のデータを用いて、スクラッチから訓練された、スペイン語用の最初の生物医学的および臨床的トランスフォーマーベースの言語モデルを提示する。低リソース環境におけるパフォーマンス向上を目的として、ドメイン固有の事前学習と語彙最適化を活用することで、mBERT や BETO よりも、生物学的および実世界の病院退院報告書の両方における複数の NER タスクで優れた性能を発揮した。
This work presents biomedical and clinical language models for Spanish by experimenting with different pretraining choices, such as masking at word and subword level, varying the vocabulary size and testing with domain data, looking for better language representations. Interestingly, in the absence of enough clinical data to train a model from scratch, we applied mixed-domain pretraining and cross-domain transfer approaches to generate a performant bio-clinical model suitable for real-world clinical data. We evaluated our models on Named Entity Recognition (NER) tasks for biomedical documents and challenging hospital discharge reports. When compared against the competitive mBERT and BETO models, we outperform them in all NER tasks by a significant margin. Finally, we studied the impact of the model's vocabulary on the NER performances by offering an interesting vocabulary-centric analysis. The results confirm that domain-specific pretraining is fundamental to achieving higher performances in downstream NER tasks, even within a mid-resource scenario. To the best of our knowledge, we provide the first biomedical and clinical transformer-based pretrained language models for Spanish, intending to boost native Spanish NLP applications in biomedicine. Our best models are freely available in the HuggingFace hub: https://huggingface.co/BSC-TeMU.
研究の動機と目的
- 生物医学および臨床現場におけるスペイン語向けのドメイン特化 NLP リソースの不足に対処すること。
- mBERT や BETO といった一般ドメインモデルが、低リソースでドメイン特化された NER タスクにおいて抱える制限を克服すること。
- 混合ドメインの事前学習と語彙設計の有効性が、下流タスクのパフォーマンス向上に与える影響を調査すること。
- 実世界の応用に適した、公開可能な最初の高パフォーマンスのスペイン語生物医学的および臨床的言語モデルを開発・リリースすること。
提案手法
- 合計約 130M テンキョクの生物学的および臨床的コーパスを用いて、RoBERTa ベースのモデルをスクラッチから事前学習した。
- さまざまなマスキング戦略(部分語レベルマスキング:SWM とワールドワードマスキング:WWM)と語彙サイズ(15k、30k、52k)を変更して検証した。
- 生物学的テキスト(PubMed、SciELO、臨床症例、クローラー抽出データ)と臨床ノート(退院報告書、レントゲン画像報告書)を組み合わせることで、混合ドメインの事前学習を実施した。
- 混合データで学習したにもかかわらず、臨床 NER タスクでの性能を評価するために、クロスドメイン転移学習を適用した。
- mBERT、BETO、および提案モデルの間で、セグメンテーション出力を比較する語彙中心の分析を実施した。
- 標準的な F1 スコアを用いて、3 つの NER ベンチマーク(2 つの生物学的:BioCreative、CANTEMIST、1 つの臨床:ICTUSnet)でモデルを評価した。
実験結果
リサーチクエスチョン
- RQ1中リソース状況下で、一般ドメインモデルと比較してドメイン特化の事前学習がスペイン語の NER パフォーマンスに顕著に向上効果をもたらすか?
- RQ2部分語レベルマスキング(SWM)とワールドワードマスキング(WWM)の選択が、下流の NER パフォーマンスにどのように影響するか?
- RQ3生物学的および臨床的データを組み合わせた混合ドメインの事前学習が、単一ドメインの事前学習よりも臨床 NER タスクで優れたパフォーマンスをもたらすか?
- RQ4語彙サイズとセグメンテーション戦略が、希少または複雑な医療用語の処理において NER パフォーマンスに与える影響は何か?
- RQ5生物学的データから臨床データへのクロスドメイン転移が、実際の病院退院報告書のタスクでどの程度のパフォーマンス向上をもたらすか?
主な発見
- 提案された bio-cli-52k モデルが、生物学的および臨床の両方のベンチマークで、mBERT や BETO を上回る最高の F1 スコアを達成した。
- ワールドワードマスキング(WWM)と 30k 語彙サイズを組み合わせたモデルが、生物学的タスクで優れたパフォーマンスを示し、マスキング戦略と語彙サイズの間には強い相関関係があることが示された。
- 生物学的および臨床的データを組み合わせた混合ドメインの事前学習が、最高の全体的パフォーマンスをもたらした。これは、従来の混合ドメイン事前学習がパフォーマンスを低下させるという先行研究とは対照的である。
- 語彙中心の分析から、mBERT や BETO で一般的に見られる過剰なセグメンテーション(過剰分割)が、特に複合医療用語の処理において NER パフォーマンスを損なう可能性があることが明らかになった。
- bio-cli-52k-vocab-cli モデルが、ICTUSnet 臨床テストセットで最高の F1 スコアを記録し、生物学的データから臨床データへの強いクロスドメインの汎用性が裏付けられた。
- 結果から、訓練データが限られている低リソース環境においても、ドメイン特化の事前学習が高パフォーマンスを達成するために不可欠であることが確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。