QUICK REVIEW

[論文レビュー] Self-Supervised Generation of Spatial Audio for 360 Video

Pedro Morgado, Nuno Vasconcelos|arXiv (Cornell University)|Sep 7, 2018

Speech and Audio Processing被引用数 79

ひとこと要約

本論文は、モノラルの360°動画の音声をエンドツーエンドのニューラルネットワークでアップコンバートし、第一種アンビソニックス（FOA）へ変換する手法を提案する。空間音声を含む映像からの自己教師付き学習を用い、モノ録音からの空間音声生成を可能にする。

ABSTRACT

We introduce an approach to convert mono audio recorded by a 360 video camera into spatial audio, a representation of the distribution of sound over the full viewing sphere. Spatial audio is an important component of immersive 360 video viewing, but spatial audio microphones are still rare in current 360 video production. Our system consists of end-to-end trainable neural networks that separate individual sound sources and localize them on the viewing sphere, conditioned on multi-modal analysis of audio and 360 video frames. We introduce several datasets, including one filmed ourselves, and one collected in-the-wild from YouTube, consisting of 360 videos uploaded with spatial audio. During training, ground-truth spatial audio serves as self-supervision and a mixed down mono track forms the input to our network. Using our approach, we show that it is possible to infer the spatial location of sound sources based only on 360 video and a mono audio track.

研究の動機と目的

360°動画における360°空間化問題（モノラル→FOA）の定式化。
音声-視覚情報を指示としたソース分離と定位を実行するエンドツーエンドのニューラルアーキテクチャの提案。
空間音声を備えた360°動画からの自己教師付き学習を活用し、個別ソースのラベルなしにモデルを訓練できるようにする。
空間化システムを訓練・評価するデータセットの収集と整備。
評価プロトコルを提供し、ベースラインに対する改善を実証する。

提案手法

モノラル音声と360° videoから多モーダル特徴を抽出する（音声STFT、RGBフレーム、そして光学フロー）。
U-Netベースの分離モジュールを用いて、入力モノのSTFTを調整するk個の時間周波数減衰マップを生成する。
音声-視覚特徴を取り込むマルチモーダル予測器を通して、分離された各ソースの定位ウェイトを計算する。
分離されたソースとそれぞれの定位ウェイトを線形結合して、FOA（第一種アンビソニックス）を生成する。
360°動画と空間音声およびモノ入力の対になったグランドトゥルー FOAを教師信号として利用し、自己監督学習でエンドツーエンドに訓練する。
方向エネルギーマップ上で、STFT距離（STFTのMSE）、包絡距離（ENV）、Earth Mover’s Distance（EMD）を用いて評価する。）

実験結果

リサーチクエスチョン

RQ1対応する360°動画のみを手掛かりとして、モノラル360°音声を空間FOAに変換できるか？
RQ2野外環境での空間音声アップコンバージョンにおける、音声-視覚特徴の結合およびソース分離/定位モジュールの有効性はどれくらいか？
RQ3空間化品質に対する各アーキテクチャコンポーネント（動画RGB、モーション、分離、定位）の寄与はどれか？
RQ4実世界のYouTube 360°動画での自己教師付き空間音声生成の性能と制限は何か？

主な発見

提案モデルはモノ入力から360°動画の妥当な空間音声を生成できる。
本アーキテクチャは、ドメイン非依存のU-Netベースのベースラインおよびモノ入力のアブレーションを、複数の指標とデータセットで上回る。
視覚入力（RGBとモーション）および分離ブロックは、複雑な野外動画にとって重要であり、アブレーションでそれらを欠くと性能が大幅に低下する。
このシステムはリアルタイム対応の性能を達成し、GPU上で48 kHzの空間音声1秒を103 msで生成する。
ユーザー調査では、本手法が実際の空間音声として認識されることが多く、ベースラインおよびモノアプローチを上回り、特にHMD視聴時のシナリオで顕著である。
本手法は多様なシーンに対して堅牢であるが、多くの重なるソースや残響がある難しいケースには依然として制約がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。