QUICK REVIEW

[論文レビュー] SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning

Changan Chen, Carl Schissler|arXiv (Cornell University)|Jun 16, 2022

Speech and Audio Processing被引用数 22

ひとこと要約

SoundSpaces 2.0 は、任意の3D環境に対して動的に現実的な音響をレンダリングする幾何ベースの音響レンダリングプラットフォームであり、連続的な空間サンプリング、構成可能な材料/マイク、音声視覚タスクの sim2real 評価を可能にします。

ABSTRACT

We introduce SoundSpaces 2.0, a platform for on-the-fly geometry-based audio rendering for 3D environments. Given a 3D mesh of a real-world environment, SoundSpaces can generate highly realistic acoustics for arbitrary sounds captured from arbitrary microphone locations. Together with existing 3D visual assets, it supports an array of audio-visual research tasks, such as audio-visual navigation, mapping, source localization and separation, and acoustic matching. Compared to existing resources, SoundSpaces 2.0 has the advantages of allowing continuous spatial sampling, generalization to novel environments, and configurable microphone and material properties. To our knowledge, this is the first geometry-based acoustic simulation that offers high fidelity and realism while also being fast enough to use for embodied learning. We showcase the simulator's properties and benchmark its performance against real-world audio measurements. In addition, we demonstrate two downstream tasks -- embodied navigation and far-field automatic speech recognition -- and highlight sim2real performance for the latter. SoundSpaces 2.0 is publicly available to facilitate wider research for perceptual systems that can both see and hear.

研究の動機と目的

視覚環境と一致するオンザフライの幾何ベース音響レンダリングを実現する。
任意の3Dメッシュや新規環境に対して音響シミュレーションを一般化する。
現実的な音響のためのマイク設定と材料特性を構成可能にする。
実測値と現実感のベンチマークを行い、下流タスク（AVナビゲーション、遠方場ASR）でのsim2real性能を評価する。
視覚と聴覚を併せ持つ知覚システムの研究を支援するため、SoundSpaces-PanoIR などの大規模視覚-音響データを公開する。

提案手法

与えられたソース/受信機の位置とシーンジオメトリに対して部屋インパルス応答（RIR）を計算する双方向パストレーシングに基づく音響伝播。
エネルギー-時間ヒストグラムと球面調和関数を用いた、設定可能な帯域での周波数領域レンダリングと方向性エネルギー分布。
受信信号をHRTFを介してバイノーラルまたはアンビソニック形式に空間化。
連続的なソースとリスナーの動きに対する音響連続性モデル化と、連続観測間のクロスフェード。
シミュレーションの構成性：サンプリングレート、周波数帯域、レイ数、回折/反射/透過、マイクタイプ、および読み込み可能なHRTF。
29種の内蔵音響材料と周波数依存の吸収/散乱/透過、加えて空気吸収および距離依存の減衰を含む材料モデリング。
効率と最大忠実度のトレードオフを行う2つのレンダリングモード（高速と高品質）、以前に計算したIRの再利用とレイ数を調整；性能のためにマルチスレッド化。

実験結果

リサーチクエスチョン

RQ1SoundSpaces 2.0 の音響・視覚シミュレーションは実世界の測定結果と比較してどれだけ正確か？
RQ2SoundSpaces 2.0 で訓練された機械学習モデルは、特に連続的な音響-視覚ナビゲーションや遠方場ASRのようなタスクにおいて、実データへどの程度 generalize できるか（sim2real）？
RQ3音響的ランダム化は下流の音響-視覚タスクのsim2real一般化を改善するか？
RQ4SoundSpaces 2.0 は任意の新しい環境をレンダリングし、離散化されたグリッドを超えた連続的な空間サンプリングをサポートできるか？
RQ5連続音響（離散ではない）と AV-ナビゲーションの性能とリアリズムへの影響は何か？

主な発見

SoundSpaces 2.0 は従来の SoundSpaces より実測値への整合性が高く、特に直接音と残響の比 DRR の精度を改善（平均 DRR 誤差を 11.0 dB から 0.98 dB に低減）。
速度-精度のトレードオフでは、ハイスピードレンダリングはハイクオリティより約8倍速（シングルスレッド）、約33倍速（5スレッド）で、RT60誤差は約9.5%対ハイクオリティの0.0%。下流のナビゲーション性能は依然として競合的。
連続音響はAVナビゲーションのリアリズムを向上させる：SoundSpaces 2.0 で訓練されたエージェントは、離散空間を用いる Baseline や音響連続性を欠くものより優れており、空間的連続性と音響連続性の結合の重要性を示している。
遠方場ASRでは、SoundSpaces 2.0 のIRでファインチューニングすると、ベースラインより低いWERを得る（例：SoundSpaces 2.0 で12.48% WER、事前学習29.10%の方が高い、実IRファインチューヌより高い場合もあり；音響ランダム化によりWERがさらに12.04%へ低減）。
著者らは SoundSpaces-PanoIR を公開：Gibson、Matterport3D、HM3D の750環境にわたる1000万のパノラマ画像-IRペアデータセットで、視覚-音響学習を支援。
SoundSpaces 2.0 は任意のメッシュ（Gibson、HM3D、Ego4D、Matterport3D、Replica）に一般化し、より広い研究利用のためにマイクアレイと材料の構成をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。