QUICK REVIEW

[論文レビュー] EasyCom: An Augmented Reality Dataset to Support Algorithms for Easy Communication in Noisy Environments

Jacob Donley, Vladimir Tourbabin|arXiv (Cornell University)|Jul 9, 2021

Speech and Audio Processing参考文献 28被引用数 32

ひとこと要約

この論文は EasyCom を紹介します。ノイズの多い社会的設定で同期されたマルチチャネル音声、映像、注釈を備えた大規模なエゴセントリックARデータセットで、ベースラインのビームフォーミング手法と評価を提供します。

ABSTRACT

Augmented Reality (AR) as a platform has the potential to facilitate the reduction of the cocktail party effect. Future AR headsets could potentially leverage information from an array of sensors spanning many different modalities. Training and testing signal processing and machine learning algorithms on tasks such as beam-forming and speech enhancement require high quality representative data. To the best of the author's knowledge, as of publication there are no available datasets that contain synchronized egocentric multi-channel audio and video with dynamic movement and conversations in a noisy environment. In this work, we describe, evaluate and release a dataset that contains over 5 hours of multi-modal data useful for training and testing algorithms for the application of improving conversations for an AR glasses wearer. We provide speech intelligibility, quality and signal-to-noise ratio improvement results for a baseline method and show improvements across all tested metrics. The dataset we are releasing contains AR glasses egocentric multi-channel microphone array audio, wide field-of-view RGB video, speech source pose, headset microphone audio, annotated voice activity, speech transcriptions, head bounding boxes, target of speech and source identification labels. We have created and are releasing this dataset to facilitate research in multi-modal AR solutions to the cocktail party problem.

研究の動機と目的

AR におけるカクテルパーティ効果を緩和するための現実的でエゴセントリックなマルチモーダルデータの必要性を動機づける。
EasyCom データセットのセンサー、注釈、取得プロトコルを説明する。
ノイズ環境でのマルチモーダルARソリューションの研究を促進するためにデータセットを公開する。
AR セットアップにおけるターゲット音声強化を評価するためのベースライン信号処理法と定量的ベンチマークを提供する。

提案手法

レストラン風の部屋（寸法: 6m x 7m x 3m）で 12 セッション、総データ約 5 時間のデータ収集設定を記述する。
AR グラスの使用者とヘッドセットマイク、モーション追跡を含む、エゴセントリックなマルチチャネルマイク音声と広視野角ビデオを記録する。
人間の評価者と自動ツールを用いて音声活動、発話転写、発話対象、顔/頭の境界ボックスを注釈付けする。
センサーフュージョン研究のための較正データと姿勢/軌跡情報を提供する。
ノイズと歪みを抑制しつつターゲット音声源を強化するベースラインのマルチチャネルビームフォーマ（最大 DI ビームフォーマ）を提案する。
推定 d(omega) と R(omega) および WOLA 処理パイプラインを用いたビームフォーマ重みの計算を概説する。

実験結果

リサーチクエスチョン

RQ1エゴセントリックなARデータを用いて、AR装着者のカクテルパーティ問題をどのように緩和できるか。
RQ2EasyCom データに対するベースライン最大 DI ビームフォーマによる SNR、 intelligibility、品質指標での性能向上はどの程度か。
RQ3エゴセントリックダイナミクスとマルチセンサ融合は、現実的にノイズの多い環境下の音声強化にどのような影響を与えるか。

主な発見

テストケース	SNR	SegSNR	SDR	SI-SDR	STOI	ESTOI	HASPI	PESQ	HASQI	ViSQOL
基準マイク \| ノイズ	-9.27	-14.2	-8.98	-17.5	0.504	0.321	0.876	110	1.17	0.268	1.64
ベースライン法 \| ノイズ	-6.62	-10.7	-7.79	-14.7	0.590	0.408	0.927	146	1.27	0.319	1.68
基準マイク \| ノイズ + 干渉者	-13.3	-15.9	-14.3	-26.2	0.462	0.303	0.720	107	1.17	0.197	1.65
ベースライン法 \| ノイズ + 干渉者	-10.1	-12.2	-12.9	-23.4	0.544	0.379	0.830	139	1.17	0.249	1.68

データセットは約 5h18m、323 本の1分セグメント（約 79 GB、CC-BY-NC-4.0）を含む。
ベースラインの最大 DI ビームフォーマは、ノイズと干渉条件下で基準マイクと比較していくつかの指標を改善（例: SNR: -9.27 から -6.62、SegSNR: -14.2 から -10.7、SDR: -8.98 から -7.79、STOI: 0.504 から 0.590、PESQ: 1.17 から 1.27、HASQI: 0.268 から 0.319）。
ノイズ+干渉者条件下で、ベースラインは -13.3 から -10.1 へSNRを改善し、基準マイクと比較して高い STOI/SDR 関連指標を維持する。
データセットは VO 活動検出、話者分離、ASR、聴覚-視覚音声処理など、豊富な注釈と姿勢データを備えた幅広い目的の評価を可能にする。
ベースラインの結果は、AR装着者からの ATF と相対幾何情報を活用することでリアルタイムでのビームフォーミングが可能であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。