QUICK REVIEW

[論文レビュー] Self-Supervised Feature Learning of 1D Convolutional Neural Networks with Contrastive Loss Using In-Ear Microphone Audio for Eating Detection

Vasileios Papapanagiotou, Christos Diou|arXiv (Cornell University)|Aug 2, 2021

Music and Audio Processing被引用数 2

ひとこと要約

本論文では、インイヤーマイク音声を用いた自己教師あり特徴学習手法を提案し、食事行動の検出に用いる。ウェアラブルデバイスから得られるラベルなし音声データを活用し、コンピュータビジョン分野のSimCLRフレームワークを応用することで、手動によるラベル付けが非常に高価で誤りやすい課題を大幅に軽減しつつ、教師ありおよび最先端の手法と同等の性能を達成した。

ABSTRACT

The importance of automated and objective monitoring of dietary behavior is becoming increasingly accepted. The advancements in sensor technology along with recent achievements in machine-learning--based signal-processing algorithms have enabled the development of dietary monitoring solutions that yield highly accurate results. A common bottleneck for developing and training machine learning algorithms is obtaining labeled data for training supervised algorithms, and in particular ground truth annotations. Manual ground truth annotation is laborious, cumbersome, can sometimes introduce errors, and is sometimes impossible in free-living data collection. As a result, there is a need to decrease the labeled data required for training. Additionally, unlabeled data, gathered in-the-wild from existing wearables (such as Bluetooth earbuds) can be used to train and fine-tune eating-detection models. In this work, we focus on training a feature extractor for audio signals captured by an in-ear microphone for the task of eating detection in a self-supervised way. We base our approach on the SimCLR method for image classification, proposed by Chen et al. from the domain of computer vision. Results are promising as our self-supervised method achieves similar results to supervised training alternatives, and its overall effectiveness is comparable to current state-of-the-art methods. Code is available at \url{https://github.com/mug-auth/ssl-chewing}.

研究の動機と目的

食事検出モデルにおける高価で誤りの多い手動ラベル付けに依存するのを減らすこと。
Bluetoothイヤホンなどのインイヤー型ウェアラブルデバイスから収集したラベルなし音声データを、事前学習に活用すること。
コンピュータビジョン分野の自己教師あり対照的学習（SimCLR）を音声信号に適応し、食事モニタリングに応用すること。
インイヤーマイクからの音声のみを用いて、頑健な特徴抽出器を開発すること。
自己教師あり学習が、教師あり学習の性能に匹敵または近い性能を達成できるかどうかを評価すること。

提案手法

インイヤーマイクで取得した1次元音声信号に、コンピュータビジョン分野のSimCLR対照的学習フレームワークを適応する。
時間のクロップやノイズ注入といったデータ拡張技術を用いて、同一音声サンプルの正例となる視覚的変換（ビュー）を生成する。
音声からの判別的表現を学習するために、1次元畳み込みニューラルネットワークを特徴エンコーダーとして採用する。
同じサンプルからのビュー同士の一致を最大化すると同時に、異なるサンプルからのビュー同士を分離するように、対照的損失を適用する。
下流の食事検出タスクに適応させるために、少量のラベル付きデータで事前学習モデルを微調整する。
分類タスクへの転移学習の前に、エンドツーエンドで自己教師ありの方法でモデルを訓練する。

実験結果

リサーチクエスチョン

RQ1インイヤーマイク音声を用いた自己教師あり対照的学習が、食事検出において教師あり学習と同等の性能を達成できるか？
RQ2自己教師あり事前学習で得た特徴の転移性能は、下流の食事検出タスクにおいてどの程度有効か？
RQ3ラベルなしのリアルワールド音声データを活用することで、食事モニタリングシステムにおける手動ラベル付けの必要性をどの程度軽減できるか？
RQ4提案手法の性能は、最先端の食事検出モデルと比較してどの程度か？
RQ5この文脈における音声ベースの自己教師あり学習において、どのデータ拡張戦略が最も効果的か？

主な発見

自己教師ありモデルは、教師あり学習のベースラインと同等の食事検出性能を達成しており、弱教師あり学習の有効性を示している。
手動ラベル付けに依存する度合いを顕著に低減しており、食事モニタリングにおける主要なボトル neck を解決している。
自己教師あり特徴抽出器の転移性能は、分野における最先端の手法と競合する水準に達している。
人為のラベルなしで、インイヤーマイク信号から判別的な音声表現を効果的に学習している。
データ拡張を併用した対照的学習の適用により、食事検出に適した頑健で汎用性の高い特徴が得られている。
コードとモデルは公開されており、自己教師あり食事モニタリング分野における再現性とさらなる研究を促進している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。