QUICK REVIEW

[論文レビュー] Autoencoding sensory substitution

Viktor Tóth, Parkkonen, Lauri|arXiv (Cornell University)|Jan 1, 2019

Neural dynamics and brain function参考文献 162被引用数 9

ひとこと要約

本論文は、再帰的変分オートエノード（LSTM）を用いた深層学習ベースの感覚置換システム（AEV2A）を提案する。このシステムは、視覚画像を圧縮され、知覚的に最適化された音響スケープに変換し、訓練時間を著しく短縮する。計算聴覚モデルを統合し、視覚表現を制約することで、数時間の訓練の後でも盲目状態のタスクで有意な性能を達成し、視覚障害者の迅速なリハビリテーションへの道筋を示している。

ABSTRACT

Tens of millions of people live blind, and their number is ever increasing. Visual-to-auditory sensory substitution (SS) encompasses a family of cheap, generic solutions to assist the visually impaired by conveying visual information through sound. The required SS training is lengthy: months of effort is necessary to reach a practical level of adaptation. There are two reasons for the tedious training process: the elongated substituting audio signal, and the disregard for the compressive characteristics of the human hearing system. To overcome these obstacles, we developed a novel class of SS methods, by training deep recurrent autoencoders for image-to-sound conversion. We successfully trained deep learning models on different datasets to execute visual-to-auditory stimulus conversion. By constraining the visual space, we demonstrated the viability of shortened substituting audio signals, while proposing mechanisms, such as the integration of computational hearing models, to optimally convey visual features in the substituting stimulus as perceptually discernible auditory components. We tested our approach in two separate cases. In the first experiment, the author went blindfolded for 5 days, while performing SS training on hand posture discrimination. The second experiment assessed the accuracy of reaching movements towards objects on a table. In both test cases, above-chance-level accuracy was attained after a few hours of training. Our novel SS architecture broadens the horizon of rehabilitation methods engineered for the visually impaired. Further improvements on the proposed model shall yield hastened rehabilitation of the blind and a wider adaptation of SS devices as a consequence.

研究の動機と目的

従来の視覚-聴覚感覚置換（SS）デバイスが数か月もかかる長時間の訓練期間を短縮すること。
既存のSSシステムの限界、すなわち長い置換遅延と人間の聴覚認識との統合不足を克服すること。
人間の聴覚系の圧縮および知覚的特性を活用する、暗黙的で深層学習ベースのSS手法を開発すること。
短縮された、知覚的に最適化された音声信号が、視覚障害者による迅速な適応を可能にするかを実証すること。
深層オートエノードが、物体識別や空間ナビゲーションなどの実用的タスクを支援する視覚特徴を聴覚表現に符号化できるかを調査すること。

提案手法

エンドツーエンドの画像-音声変換を実行するため、長短記憶（LSTM）ユニットを備えた深層再帰的変分オートエノード（VAE）を設計する。
心理音響的制約（騒音レベル、周波数トノトピー、左右音響定位）を組み込んだ、手作業で設計された音声シンセサイザーを実装し、潜在表現を聴覚的特徴にマッピングする。
左右音響時間差（ITD）およびレベル差（ILD）を模倣するためのバイナリナルノイジングユニットを統合し、空間的知覚を向上させ、人間の聴覚処理と整合させる。
聴覚ストリーム分離と知覚的グループ化を模倣するための計算聴覚モデル（例：CARFAC）を適用し、複雑な聴覚刺激の識別性を向上させる。
輪郭抽出と視覚的空間の抽象化を用いて、音声合成の前に入力画像を低次元の潜在表現に圧縮する。
再構成損失を用いて、元の画像と合成音声から再構成された画像との差を最小化するようにオートエノードを訓練する。

実験結果

リサーチクエスチョン

RQ1深層再帰的オートエノードは、視覚画像を、視覚の欠如下でも迅速な学習を可能にする知覚的に意味のある聴覚表現にマッピングできるか？
RQ2人間の聴覚系の知覚的制約（周波数選択性、騒音レベル認識、バイナリナル定位など）を、深層学習ベースのSSシステムに組み込むことで、性能向上と訓練時間短縮がどの程度達成できるか？
RQ3暗黙的でオートエノードベースの感覚置換は、数時間の訓練の後でも、視覚的識別および空間ナビゲーションタスクで有意な性能を達成できるか？
RQ4視覚的抽象化（例：エッジ検出、輪郭抽出）は、深層学習フレームワークにおける画像-音声変換の効率性と正確性にどのように影響するか？
RQ5音声合成パイプラインに計算聴覚モデルを統合することで、聴覚的特徴の識別性が向上し、知覚的曖昧性が低減するか？

主な発見

AEV2Aモデルは、数時間の訓練の後、盲目状態で手のポーズ識別タスクにおいて有意な性能を達成し、迅速な知覚的学習を示した。
物体への到達タスクでは、最小限の訓練後でもベースラインより顕著に高い正確性を達成し、音声信号内に空間的物体特性が効果的に符号化されていることを示した。
バイナリナルノイジングユニットの使用により、中央の方位角値を優先する傾向が生じ、空間的定位の正確性が向上し、人間の聴覚認識の限界と整合した。
計算聴覚モデル（例：CARFAC）の統合により、知覚的グループ化とストリーム分離が向上し、複雑な聴覚刺激の曖昧性が低減した。
エッジ検出と輪郭抽出による視覚的空間の抽象化により、情報の損失が顕著にないまま、より短く効率的な音声信号が可能になった。
深層再帰的VAEアーキテクチャは、訓練速度と知覚的忠実度の面で、明示的でルールベースのSS手法を上回り、月単位ではなく時間単位で機能的な性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。