QUICK REVIEW

[论文解读] EasyCom: An Augmented Reality Dataset to Support Algorithms for Easy Communication in Noisy Environments

Jacob Donley, Vladimir Tourbabin|arXiv (Cornell University)|Jul 9, 2021

Speech and Audio Processing参考文献 28被引用 32

一句话总结

本文介绍 EasyCom，一个包含同步多通道音频、视频和注释的丰富的近端AR数据集，适用于嘈杂社交场景，并提供基线波束形成方法与评估。

ABSTRACT

Augmented Reality (AR) as a platform has the potential to facilitate the reduction of the cocktail party effect. Future AR headsets could potentially leverage information from an array of sensors spanning many different modalities. Training and testing signal processing and machine learning algorithms on tasks such as beam-forming and speech enhancement require high quality representative data. To the best of the author's knowledge, as of publication there are no available datasets that contain synchronized egocentric multi-channel audio and video with dynamic movement and conversations in a noisy environment. In this work, we describe, evaluate and release a dataset that contains over 5 hours of multi-modal data useful for training and testing algorithms for the application of improving conversations for an AR glasses wearer. We provide speech intelligibility, quality and signal-to-noise ratio improvement results for a baseline method and show improvements across all tested metrics. The dataset we are releasing contains AR glasses egocentric multi-channel microphone array audio, wide field-of-view RGB video, speech source pose, headset microphone audio, annotated voice activity, speech transcriptions, head bounding boxes, target of speech and source identification labels. We have created and are releasing this dataset to facilitate research in multi-modal AR solutions to the cocktail party problem.

研究动机与目标

动机：需要现实、以自我为中心的多模态数据，以缓解 AR 中的鸡尾酒会效应。
描述 EasyCom 数据集，包括传感器、注释和获取协议。
公开发布数据集，促进对在嘈杂环境中发言的多模态 AR 解决方案的研究。
提供基线信号处理方法和定量基准，用于评估 AR 设置中的目标语音增强。

提出的方法

描述在类似餐厅的房间中进行数据收集的设置，尺寸为 6m x 7m x 3m，共 12 次会话，数据总量约 5 小时。
记录来自佩戴 AR 眼镜的用户的近眼多通道麦克风音频和广角视场视频，以及头戴麦和运动跟踪。
使用人工评估和自动工具对语音活动、语音转录、目标说话及人脸/头部边界框进行注释。
提供用于传感器融合研究的校准数据和姿态/轨迹信息。
提出一个基线多通道波束形成器（最大 DI 波束形成器），以在抑制噪声和失真的同时增强目标语音源。
概述使用估计的 d(omega) 和 R(omega) 以及 WOLA 处理流水线来计算波束形成权重。

实验结果

研究问题

RQ1如何利用多模态 AR 数据来缓解 AR 用户的鸡尾酒会问题？
RQ2在 EasyCom 数据上使用基线最大 DI 波束形成器，在信噪比、可懂度和质量指标方面可以获得哪些性能提升？
RQ3近眼动态和多传感器融合如何影响现实嘈杂环境中的语音增强？

主要发现

测试用例	SNR	SegSNR	SDR	SI-SDR	STOI	ESTOI	HASPI	PESQ	HASQI	ViSQOL
Reference Mic \| Noise	-9.27	-14.2	-8.98	-17.5	0.504	0.321	0.876	110	1.17	0.268	1.64
Baseline Method \| Noise	-6.62	-10.7	-7.79	-14.7	0.590	0.408	0.927	146	1.27	0.319	1.68
Reference Mic \| Noise + Interferer	-13.3	-15.9	-14.3	-26.2	0.462	0.303	0.720	107	1.17	0.197	1.65
Baseline Method \| Noise + Interferer	-10.1	-12.2	-12.9	-23.4	0.544	0.379	0.830	139	1.17	0.249	1.68

数据集包含约 5 小时 18 分的数据，分为 323 段，每段 1 分钟（约 79 GB，CC-BY-NC-4.0）。
在有噪声和干扰条件下，基线最大 DI 波束形成器在多项指标上优于参考麦克风（例如 SNR：-9.27 到 -6.62；SegSNR：-14.2 到 -10.7；SDR：-8.98 到 -7.79；STOI：0.504 到 0.590；PESQ：1.17 到 1.27；HASQI：0.268 到 0.319）。
在噪声+干扰条件下，基线将 SNR 从 -13.3 提升到 -10.1，并维持比参考麦克风更高的 STOI/SDR 相关指标。
数据集使得在包括 VO 活动检测、说话人分离、ASR 以及音视频语音处理等广泛目标上进行评估成为可能，具备丰富的注释和姿态数据。
基线结果表明在利用 ATFs 和来自 AR 用户的相对几何信息时，可以实现实时波束形成。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。