[論文レビュー] Task-oriented Dialogue System for Automatic Disease Diagnosis via Hierarchical Reinforcement Learning.
本稿では、自動疾患診断を目的としたタスク指向対話システムにおける階層的強化学習フレームワークを提案する。2段階のポリシーを用いる:マスターポリシーが次の症状チェックヤーを選択し、低レベルポリシーが症状を収集し、疾患を分類する。このアプローチは、実世界および合成データセットの両方で、平坦な強化学習手法よりも高い診断精度を達成する。
In this paper, we focus on automatic disease diagnosis with reinforcement learning (RL) methods in task-oriented dialogues setting. Different from conventional RL tasks, the action space for disease diagnosis (i.e., symptoms) is inevitably large, especially when the number of diseases increases. However, existing approaches to this problem employ a flat RL policy, which typically works well in simple tasks but has significant challenges in complex scenarios like disease diagnosis. Towards this end, we propose to integrate a hierarchical policy of two levels into the dialogue policy learning. The high level policy consists of a model named master that is responsible for triggering a model in low level, the low level policy consists of several symptom checkers and a disease classifier. Experimental results on both self-constructed real-world and synthetic datasets demonstrate that our hierarchical framework achieves higher accuracy in disease diagnosis compared with existing systems. Besides, the datasets (this http URL) and codes (this https URL) are all available now.
研究の動機と目的
- 症状と疾患の組み合わせが指数関数的に増加するため、タスク指向対話における疾患診断における巨大な行動空間の課題に対処する。
- 複雑な診断シナリオにおいて、構造的な症状収集を要する際の平坦な強化学習ポリシーの限界を克服する。
- 診断を高レベルの戦略選択と低レベルの症状収集に分解する階層的対話ポリシーを設計する。
- ポリシーの階層化により、より効率的かつ的確な症状探索を可能にすることで、診断精度を向上させる。
- 実世界および合成データセットの両方でフレームワークを評価し、性能とスケーラビリティを検証する。
提案手法
- 高レベルのマスターポリシーが次に使用する症状チェックヤーを選択する2段階の階層的ポリシーを導入する。
- 低レベルポリシーを、患者が報告する症状を収集する専用の症状チェックヤーおよび疾患分類器として実装する。
- マスターポリシーを、遅延報酬を通じて長期的な診断精度を最適化するように深層強化学習で訓練する。
- 行動空間を階層的に構造化することで、すべての可能な症状-疾患ペアに対する平坦な行動空間と比較して、有効な複雑度を低減する。
- 多様な診断経路をシミュレートするため、実患者の対話データと合成対話データの組み合わせを用いて、エンドツーエンドでシステムを訓練する。
- カリキュラム学習および探索戦略を適用し、複雑な診断環境におけるサンプル効率およびポリシー収束の改善を図る。
実験結果
リサーチクエスチョン
- RQ1平坦な強化学習ベースラインと比較して、階層的強化学習フレームワークは、タスク指向対話システムにおける疾患診断の精度を向上させることができるか?
- RQ2階層的ポリシー構造は、大規模な疾患診断タスクにおいて、行動空間の有効なサイズをどのように低減するか?
- RQ3提案されたフレームワークは、医療診断環境における実世界および合成対話データの両方に対して、どの程度一般化可能か?
- RQ4マスターポリシーが症状チェックヤーを選択する能力が、症状収集の効率性および正確性にどのように影響するか?
- RQ5階層的設計は、トレーニング中のサンプル効率および収束速度にどのような影響を及ぼすか?
主な発見
- 階層的強化学習フレームワークは、実世界および合成データセットの両方で、平坦な強化学習ベースラインよりも顕著に高い診断精度を達成する。
- 提案手法は、戦略選択と症状収集を分離することで、有効な行動空間の複雑度を低減し、よりスケーラブルな学習を可能にする。
- マスターポリシーは最適な症状チェックヤーの選択を学習し、収束が速く、より効率的な症状取得を実現する。
- 合成データおよび実世界データの両方で良好な一般化性能を示し、患者の症状報告における分布シフトに対しても頑健であることが確認された。
- フレームワークはサンプル効率が向上し、平坦なポリシー手法と比較して、高い診断精度に到達するための対話ターン数が少ない。
- コードおよびデータセットの公開により、医療対話システム研究分野における再現性およびさらなるベンチマークが可能になる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。