QUICK REVIEW

[論文レビュー] What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams

Di Jin, Eileen Pan|arXiv (Cornell University)|Sep 28, 2020

Topic Modeling参考文献 30被引用数 60

ひとこと要約

この論文は MedQA を紹介する。大規模で多言語のオープンドメインの多肢選択式 QA データセットは医療のボード試験から構築され、医療教科書のテキストコーパスとベースライン実験が現在の OpenQA システムにかなりの課題を示す。

ABSTRACT

Open domain question answering (OpenQA) tasks have been recently attracting more and more attention from the natural language processing (NLP) community. In this work, we present the first free-form multiple-choice OpenQA dataset for solving medical problems, MedQA, collected from the professional medical board exams. It covers three languages: English, simplified Chinese, and traditional Chinese, and contains 12,723, 34,251, and 14,123 questions for the three languages, respectively. We implement both rule-based and popular neural methods by sequentially combining a document retriever and a machine comprehension model. Through experiments, we find that even the current best method can only achieve 36.7\%, 42.0\%, and 70.1\% of test accuracy on the English, traditional Chinese, and simplified Chinese questions, respectively. We expect MedQA to present great challenges to existing OpenQA systems and hope that it can serve as a platform to promote much stronger OpenQA models from the NLP community in the future.

研究の動機と目的

米国、本土中国、台湾の医療審査試験から出題された医療問題の自由回答形式の多肢選択OpenQAデータセットを作成する。
retrieved evidence を支持する読解を支援するための大規模な医療教科書コーパスを提供する。
最新のOpenQAアプローチを評価してボトルネックを特定し、検索と推論における将来のモデル開発を指針とする。
データセットの特徴を分析して、マルチホップ推論や領域特有知識の要件などの課題を浮き彫りにする。

提案手法

DrQA フレームワークに従った文書検索機と文書リーダーからなる2要素のOpenQAシステムを構築する。
規則ベースのベースライン（PMI、BM25によるIR）と、微調整済みBERT/Roberta系などのニューラルモデルを比較する。
英語と中国語（簡体字/繁体字）の質問を各問題4択で用い、選択肢の順序をランダム化し、公正な使用のためデータを調整する。
MedQA上で入力を [CLS] context [SEP] question+options [SEP] として形成し、事前学習済み言語モデル（例：BERT、BioBERT、RoBERTa）を微調整する。
英語と中国語の大規模な医療教科書コレクションを知識源として使用; PDFsをOCRし、解析前処理を行う。

実験結果

リサーチクエスチョン

RQ1多言語にわたる大規模でドメイン特化した医療OpenQAデータセットで、現在のOpenQAシステムはどれくらいの性能を発揮するか？
RQ2複雑な医療ケース問題を解くときの検索と読解の主なボトルネックは何か？
RQ3多言語の MedQA は OpenQA におけるモデルの性能とクロスリンガルトランスファにどう影響するか？
RQ4 retrieved passages は多段階の医療質問に回答するのに十分な証拠を提供しているか？
RQ5エラー分析は医療OpenQAモデルの検索と推論を改善するための何を示しているか？

主な発見

最大のモデルでさえ MedQA で限定的な精度しか達成しておらず、最良の手法でUSは36.7%、繁體字は42.0%、簡体字は70.1%がテストセットでの精度。
検索品質がボトルネック。現在のIR/検索は複数のパッセージにまたがる証拠を用いたマルチホップ推論を維持できない。
事前学習済み言語モデルは一般に非事前学習ベースラインより優れるが、多くはUSMLEとTWMLEでIRベースラインを上回れず、データセットの難しさを示している。
データセットには2種類の問題タイプ（単一の知識点 vs. マルチホップ、ケースベース推論）があり、USMLEで難易度の高いタイプ2の問題の出現率が高い。
人間の専門家は医療教科書コーパスで多くの問題に対して十分な証拠を見つけられる（USMLE 88%、MCMLE 100%、TWMLE 87%）、コーパスのカバレッジは多くの項目に適していることを示唆。
エラー分析はUSMLEの回答の不正解の主な原因を検索の失敗と特定し、二つの失敗パターン：過度に広い候補疾病と二段階推論要件。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。