Skip to main content
QUICK REVIEW

[論文レビュー] A pre-training technique to localize medical BERT and enhance BioBERT.

Shoya Wada, Toshihiro Takeda|arXiv (Cornell University)|May 14, 2020
Biomedical Text Mining and Ontologies被引用数 9
ひとこと要約

本論文は、英語および日本語の小規模な医療コーパスを微調整することにより、低リソースの生物医学的言語向けにBioBERTを強化する事前学習手法を提案する。限られた高品質な医療テキストを活用することで、ouBioBERTが10のデータセットを通じてBLUEベンチマークでBioBERTより1.0ポイントの向上を達成し、生物医学的言語理解における優れた性能を示している。

ABSTRACT

Bidirectional Encoder Representations from Transformers (BERT) models for biomedical specialties such as BioBERT and clinicalBERT have significantly improved in biomedical text-mining tasks and enabled us to extract valuable information from biomedical literature. However, we benefitted only in English because of the significant scarcity of high-quality medical documents, such as PubMed, in each language. Therefore, we propose a method that realizes a high-performance BERT model by using a small corpus. We introduce the method to train a BERT model on a small medical corpus both in English and Japanese, respectively, and then we evaluate each of them in terms of the biomedical language understanding evaluation (BLUE) benchmark and the medical-document-classification task in Japanese, respectively. After confirming their satisfactory performances, we apply our method to develop a model that outperforms the pre-existing models. Bidirectional Encoder Representations from Transformers for Biomedical Text Mining by Osaka University (ouBioBERT) achieves the best scores on 7 of the 10 datasets in terms of the BLUE benchmark. The total score is 1.0 points above that of BioBERT.

研究の動機と目的

  • 事前学習用の多言語生物医学的テキストが不足している問題に対処すること。
  • 日本語などの低リソース言語における小規模な医療コーパスのみを用いて、高性能なBERTモデルを開発すること。
  • BERTの事前学習手法を適応させることで、低リソース環境における生物医学的言語理解を向上させること。
  • ベンチマーク評価において、BioBERT や clinicalBERT などの既存モデルを上回ること。

提案手法

  • 英語および日本語の小規模だが高品質な生物医学的コーパスを用いてBERTモデルを事前学習すること。
  • ドメイン固有のテキストを用いて、標準的なBERTアーキテクチャを生物医学用語と文脈に焦点を合わせるように変更すること。
  • ドメイン固有の表現を強化するために、生物医学的言語理解タスクでモデルを微調整すること。
  • BLUEベンチマークおよび日本語の医療文書分類タスクでの評価を通じて、性能を検証すること。
  • 医療テキスト内の文脈的依存関係を捉えるために、双方向アテンションメカニズムを用いること。
  • 限られた医療コーパス上でマスク言語モデルと次文予測を最適化することで、モデルを最適化すること。

実験結果

リサーチクエスチョン

  • RQ1低リソース言語における小規模な生物医学的コーパスで事前学習されたBERTモデルは、高い性能を達成できるか?
  • RQ2限られた医療テキストで事前学習されたモデルの性能は、既存のBioBERT や clinicalBERT モデルと比べてどうか?
  • RQ3ドメイン固有の事前学習が、低リソース環境における生物医学的言語理解をどの程度向上できるか?
  • RQ4小規模で高品質な医療コーパスのみを用いることで、下流タスクの性能にどのような影響があるか?

主な発見

  • ouBioBERTはBLUEベンチマークの10のデータセットのうち7つで最高の性能を示し、BioBERTを上回った。
  • ouBioBERTの総合得点は、BLUEベンチマークでBioBERTより1.0ポイント高い。
  • モデルは日本語の医療文書分類タスクでも優れた性能を示し、低リソース環境での有効性を確認した。
  • 大規模で一般ドメインのコーパスを用いて学習したモデルと比較して、小規模で高品質な医療コーパスでの事前学習でも競争力のある結果が得られた。
  • 限られた学習データでも、生物医学的言語理解が向上することを実証した。
  • このアプローチは英語および日本語の両方で有効であり、生物医学的NLPにおける多言語間の転送性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。