Skip to main content
QUICK REVIEW

[論文レビュー] Tuberculosis Screening from Cough Audio: Baseline Models, Clinical Variables, and Uncertainty Quantification

George P. Kafentzis, Efstratios Selisios|arXiv (Cornell University)|Jan 12, 2026
Respiratory and Cough-Related Research被引用数 0
ひとこと要約

この論文は、咳の音声(臨床データは任意)から結核を検出する標準化され再現可能なベースラインを、咳薬保持者と独立したネスト付きクロスバリデーションと不確実性を定量化する適合予測を用いて確立します。

ABSTRACT

In this paper, we propose a standardized framework for automatic tuberculosis (TB) detection from cough audio and routinely collected clinical data using machine learning. While TB screening from audio has attracted growing interest, progress is difficult to measure because existing studies vary substantially in datasets, cohort definitions, feature representations, model families, validation protocols, and reported metrics. Consequently, reported gains are often not directly comparable, and it remains unclear whether improvements stem from modeling advances or from differences in data and evaluation. We address this gap by establishing a strong, well-documented baseline for TB prediction using cough recordings and accompanying clinical metadata from a recently compiled dataset from several countries. Our pipeline is reproducible end-to-end, covering feature extraction, multimodal fusion, cougher-independent evaluation, and uncertainty quantification, and it reports a consistent suite of clinically relevant metrics to enable fair comparison. We further quantify performance for cough audio-only and fused (audio + clinical metadata) models, and release the full experimental protocol to facilitate benchmarking. This baseline is intended to serve as a common reference point and to reduce methodological variance that currently holds back progress in the field.

研究の動機と目的

  • 咳音声および臨床メタデータから結核予測の標準化・再現性の高いパイプラインを確立する。
  • 咳薬保持者に依存しない評価を保証し、公正なベンチマークと一般化評価を可能にする。
  • 適合予測を用いて標準的な性能指標とともに予測不確実性を定量化する。
  • 結核音響スクリーニング研究における方法的変動を減らすためのベースラインフレームワークと実験プロトコルを提供する。

提案手法

  • 時系列で要約された特徴量(MFCCs、Chroma、単純スペクトル特徴量)を手作りで作成し統計的機能量で要約する。
  • 音声特徴を臨床メタデータと組み合わせ可能な場合は統合し、ロジスティック回帰およびCatBoostモデルで評価する。
  • 咳薬保持者を越えた漏洩を防ぐため、咳薬保持者分離付きネストクロスバリデーション戦略を採用する(外部10分割、内部5分割)。
  • 適合予測をカリブレーションセットとともに適用し、不確実性を伴う予測と予測集合を生成する。
  • アイソトニック回帰でスコアをキャリブレーションし、保持されたカリブレーション部分集団で作動閾値(例:Youden)を決定する。
  • 音声オンリーおよび統合モデルの両方についてROC-AUC、PR-AUC、Sensitivity、Specificity、UAR、PPV、NPVを報告する。
Figure 1: Cougher-disjoint nested CV pipeline for model selection, calibration, and conformal prediction based uncertainty quantification.
Figure 1: Cougher-disjoint nested CV pipeline for model selection, calibration, and conformal prediction based uncertainty quantification.

実験結果

リサーチクエスチョン

  • RQ1臨床データの有無にかかわらず、標準化された咳音声特徴パイプラインは大規模で複数国にまたがる咳データセットで結核状態を正確に予測できるか。
  • RQ2咳薬保持者分離評価を強制することは、結核咳嗽スクリーニングにおいて標準的な分割と比較して一般化を改善するか。
  • RQ3臨床メタデータの追加は咳音声からの結核予測性能にどのような影響を与えるか。
  • RQ4適合予測は結核スクリーニングの意思決定に有意義な不確実性定量化と abstention の信号を提供できるか。

主な発見

  • solicited CODA結核サブセット(9,772咳サンプル、1,105名)に対して2つの一般的なモデルを訓練するための標準化パイプラインを設定した。
  • 情報漏洩を防ぎ、公正な評価を確保するための咳薬保持者分離付きネストクロスバリデーション戦略を実装した。
  • 結核予測性能のために音響特徴のみ、または音声+臨床特徴の統合特徴を検討した。
  • 適合予測を用いて予測の不確実性を定量化し、信頼度ベースの意思決定出力と境界ケースでの潜在的な棄却を可能にした。
  • 適切な校正ステップと臨床的に意味のある作動点を支持する閾値選択手順を含む。
Figure 2: MFCC and Chroma features for two cough waveforms, TB+ and TB-.
Figure 2: MFCC and Chroma features for two cough waveforms, TB+ and TB-.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。