[論文レビュー] StethoLM: Audio Language Model for Cardiopulmonary Analysis Across Clinical Tasks
StethoLM は心肺聴診に特化した音声–言語モデルで、16,125件の録音からなる77,027の指示–応答ペアを含む StethoBench を用いて訓練され、7つの指示駆動型臨床タスクを実行します。
Listening to heart and lung sounds - auscultation - is one of the first and most fundamental steps in a clinical examination. Despite being fast and non-invasive, it demands years of experience to interpret subtle audio cues. Recent deep learning methods have made progress in automating cardiopulmonary sound analysis, yet most are restricted to simple classification and offer little clinical interpretability or decision support. We present StethoLM, the first audio-language model specialized for cardiopulmonary auscultation, capable of performing instruction-driven clinical tasks across the full spectrum of auscultation analysis. StethoLM integrates audio encoding with a medical language model backbone and is trained on StethoBench, a comprehensive benchmark comprising 77,027 instruction-response pairs synthesized from 16,125 labeled cardiopulmonary recordings spanning seven clinical task categories: binary classification, detection, reporting, reasoning, differential diagnosis, comparison, and location-based analysis. Through multi-stage training that combines supervised fine-tuning and direct preference optimization, StethoLM achieves substantial gains in performance and robustness on out-of-distribution data. Our work establishes a foundation for instruction-following AI systems in clinical auscultation.
研究の動機と目的
- スケーラブルな指示駆動型聴診分析を動機づけ、心肺音における分類のみに依存するアプローチを克服する。
- 微細な心肺音響特性と臨床ワークフローに適合した音声–言語モデルを開発する。
- 七つの臨床タスクを網羅する多様で多タスクなベンチマークを提供する StethoBench を作成する。
- 特化した訓練が分布外データでの頑健性を向上させることを示す。
提案手法
- StethoLM を提案する、音声エンコーダ + 投映ネットワーク + 言語モデルのバックボーンを用い、音声特徴を言語フレンドリーなプレフィックストークンへマッピングしてテキスト生成を条件付ける。
- LoRA を用いた効率的適応を伴う監視付きファインチューニング(SFT)で医療 LLM バックボーンを訓練する。
- 応答品質を洗練させるため Direct Preference Optimization(DPO)とマルチモーダル DPO(mDPO)を探求し、劣化音響シナリオを含む。
- 七つの心肺 datasets を StethoBench に変換し、七つのタスク種をカバーする 77,027 の指示–応答ペアを作成する。
- 二段階の訓練レジメン(SFT の後に(m)DPO)を用い、BERTScore や LLM による臨床的適合性など臨床志向の指標で評価する。
- インドメインデータとアウトオブドメインデータの双方で頑健性と一般化を評価する。

実験結果
リサーチクエスチョン
- RQ1心肺聴診に特化した音声–言語モデルは、分類を超えたマルチタスクの指示駆動型臨床推論を実行できるか。
- RQ2医療音声へのドメイン特化訓練は、インドメインおよび分布外データにおいて一般的な音声–言語モデルより優れているか。
- RQ3StethoLM は七つの臨床タスクカテゴリ(二値分類、検出、報告、推論、鑑別診断、比較、部位別分析)でどう機能するか。
主な発見
- StethoLM は、複数のタスクにおいてインドメインデータ上で一般目的のマルチモーダルおよび音声–言語ベースラインを大幅に上回る。
- StethoLM は分布外データセットでの頑健性を向上させ、展開シナリオへの一般化が改善されることを示す。
- 特化した指示ベースの訓練(SFT、DPO/mDPO の可能性を含む)は、汎用音声タスクで訓練されたバックボーンより性能向上をもたらす。
- StethoBench は 16,125 録音から得られた 77,027 の指示–応答ペアを提供する包括的なベンチマークであり、単純な分類を超えた評価を可能にする。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。