Skip to main content
QUICK REVIEW

[論文レビュー] Classification of Infant Crying in Real-World Home Environments Using Deep Learning

Xuewen Yao, Megan Micheletti|arXiv (Cornell University)|May 12, 2020
Infant Health and Development被引用数 4
ひとこと要約

本論文では、780時間の連続的でウェアラブル記録された音声を用いて、実世界の家庭環境で乳児の苦痛の声を分類するための深層学習モデルを提案する。このモデルは、F1スコア0.597を達成し、従来の実践的最良手法(F1 = 0.166)および最先端手法(F1 = 0.26)を著しく上回る。

ABSTRACT

In the domain of social signal processing, audio recognition is a promising avenue for accessing daily behaviors that contribute to health and well-being. However, despite advances in mobile computing and machine learning, audio behavior detection models are largely constrained to data collected in controlled settings, such as call centers. This is problematic as it means their performance is unlikely to generalize to real-world applications. In the current paper, we present a model combining deep spectrum and acoustic features to detect and classify infant distress vocalizations from 24 hour, continuous, raw real-world data collected via a wearable audio recorder. Our model dramatically outperforms infant distress detection models trained and tested on equivalent real-world datasets. In particular, our model has an F1 score of 0.597 relative to F1 scores of 0.166 and 0.26 achieved by state-of-practice and state-of-the-art real-world infant distress classifiers, respectively. We end by discussing what may have facilitated this massive gain in accuracy, including using supervised deep spectrum features and the fact that we collected and annotated a massive dataset of 780 hours of real-world audio data with over 25 hours of labelled distress.

研究の動機と目的

  • 制御された環境ではなく実世界の環境で学習された乳児の苦痛検出モデルにおける一般化ギャップを解消すること。
  • 連続的な実世界の家庭記録音声において、乳児の苦痛の発声を検出し分類できる耐障害性の高い音声分類システムを開発すること。
  • 教師あり深層スペクトル特徴と大規模な人間によるアノテーションが施された780時間の音声データ(25時間以上が苦痛ラベル付き)を活用することで、実世界データにおける性能を向上させること。
  • 深層スペクトル表現と大規模な実世界データ収集が、乳児の泣き声検出におけるモデルの正確性を著しく向上させることを調査すること。

提案手法

  • モデルは、教師あり学習で得た深層スペクトログラム特徴と従来の音声特徴を統合し、表現学習を強化する。
  • ウェアラブルレコーダーを用いて家庭環境で収集した、780時間の連続的で生の音声データの大規模なデータセットを構築した。そのうち25時間以上が人間による手動アノテーションで乳児の苦痛にラベル付けされた。
  • 深層ニューラルネットワークアーキテクチャは、実世界データセット上でエンドツーエンドに訓練され、乳児の泣き声を苦痛と非苦痛に分類する。
  • スペクトログラム特徴は、畳み込みニューラルネットワーク(CNN)を用いて、音声スペクトログラム内の階層的パターンを学習する。
  • 標準的な指標(F1スコアなど)を用いて、実世界の記録データのホールドアウトテストセット上でモデルを評価した。
  • 実世界データと教師あり特徴学習の使用により、合成または制御されたデータで学習したモデルと比較して、より優れた一般化性能が得られた。

実験結果

リサーチクエスチョン

  • RQ1実世界の連続的音声データで学習した深層学習モデルは、制御されたデータで学習したモデルと比較して、乳児の苦痛の声を分類する性能を著しく向上させることができるか?
  • RQ2従来の音声特徴のみと比較して、教師あり深層スペクトログラム特徴が分類精度をどの程度向上させるか?
  • RQ3実世界データ収集の規模が、乳児の泣き声検出モデルの一般化性能と耐障害性に与える影響は何か?
  • RQ4制御されたデータと実世界データで学習したモデルの間の性能ギャップを引き起こす要因は何か?

主な発見

  • 提案されたモデルは、実世界のテストデータでF1スコア0.597を達成し、従来の実践的最良手法(F1 = 0.166)を著しく上回った。
  • また、F1スコア0.26を達成した最先端の実世界分類器よりも優れた性能を示し、顕著な性能向上を実証した。
  • 教師あり深層スペクトログラム特徴の使用が、より良い表現学習と向上した検出精度に寄与した。
  • 780時間の音声データ(25時間以上が苦痛ラベル付き)からなる大規模な実世界データセットが、モデルの一般化性能の向上を可能にする重要な要因となった。
  • 結果から、制御された環境を超えた一般化を実現するためには、実世界環境でのデータ収集が不可欠であると示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。