Skip to main content
QUICK REVIEW

[論文レビュー] Augmented Cyclic Adversarial Learning for Low Resource Domain Adaptation

Ehsan Hosseini-Asl, Yingbo Zhou|arXiv (Cornell University)|Jul 1, 2018
Speech Recognition and Synthesis参考文献 46被引用数 35
ひとこと要約

本論文では、ドメイン適応フレームワークとして、従来の再構成に基づくサイクル整合性を、タスク固有のモデルに置き換えることで、ドメイン間翻訳中に意味的コンテンツを保持する『拡張された巡回的対抗的学習(ACAL)』を提案する。タスク固有の監視を暗黙の整合性制約として活用することで、低リソース設定において最先端の性能を達成し、数字分類の精度を最大14%向上させるとともに、TIMITデータセットにおける音声認識の音素誤り率を5%低減した。

ABSTRACT

Training a model to perform a task typically requires a large amount of data from the domains in which the task will be applied. However, it is often the case that data are abundant in some domains but scarce in others. Domain adaptation deals with the challenge of adapting a model trained from a data-rich source domain to perform well in a data-poor target domain. In general, this requires learning plausible mappings between domains. CycleGAN is a powerful framework that efficiently learns to map inputs from one domain to another using adversarial training and a cycle-consistency constraint. However, the conventional approach of enforcing cycle-consistency via reconstruction may be overly restrictive in cases where one or more domains have limited training data. In this paper, we propose an augmented cyclic adversarial learning model that enforces the cycle-consistency constraint via an external task specific model, which encourages the preservation of task-relevant content as opposed to exact reconstruction. We explore digit classification in a low-resource setting in supervised, semi and unsupervised situation, as well as high resource unsupervised. In low-resource supervised setting, the results show that our approach improves absolute performance by 14% and 4% when adapting SVHN to MNIST and vice versa, respectively, which outperforms unsupervised domain adaptation methods that require high-resource unlabeled target domain. Moreover, using only few unsupervised target data, our approach can still outperforms many high-resource unsupervised models. In speech domains, we similarly adopt a speech recognition model from each domain as the task specific model. Our approach improves absolute performance of speech recognition by 2% for female speakers in the TIMIT dataset, where the majority of training samples are from male voices.

研究の動機と目的

  • ラベル付きデータが乏しい低リソースのターゲットドメインにおけるドメイン適応の課題に対処すること。
  • ターゲットデータが限られている場合に最適でない可能性がある、正確な再構成に依存する従来のCycleGANの限界を克服すること。
  • 再構成ではなくタスク固有のモデルを用いることで、サイクル整合性の強化を図り、意味的コンテンツのより効果的な保持を実現すること。
  • タスク固有のモデルを補助信号として用いることで、低リソースドメインにおける分布モデリングのためのディスクラミネーター学習を向上させること。
  • 教師あり、半教師あり、教師なしの設定において、視覚および音声ドメインの両方で有効性を実証すること。

提案手法

  • CycleGANにおける標準的なサイクル整合性損失を、各ドメインで訓練されたモデルの予測精度を測定するタスク固有の損失に置き換える。
  • タスク固有のモデルを、対応するドメインにおけるディスクラミネーターの追加的監視信号として活用し、分布モデリングを改善する。
  • 生成器を敵対的訓練によりソースからターゲットへ、そして逆方向へマッピングするように訓練するが、この際、タスク固有のモデルの出力がサイクル全体で一貫性を保つようにする。
  • タスク固有のモデルをサイクル整合性ループに統合し、タスク固有のコンテンツとドメイン固有のスタイルを効果的に分離する。
  • 音声実験では、敵対的安定性と性能を向上させるために、マルチディスクラミネーター訓練を適用する。
  • 音声データにはスペクトログラム表現を用い、音素誤り率(PER)を評価指標とする。

実験結果

リサーチクエスチョン

  • RQ1再構成に基づくサイクル整合性をタスク固有の損失に置き換えることで、低リソース設定におけるドメイン適応性能が向上するか?
  • RQ2ターゲットデータが乏しい状況で、タスク固有のモデルを補助信号として用いることでディスクラミネーター学習が向上するか?
  • RQ3少数のターゲットサンプルしか利用できない状況で、ACALは既存の非教師ありドメイン適応手法と比較してどのように性能を発揮するか?
  • RQ4ACALは、数字画像分類と音声認識といった異なるドメインにおいて、低リソース条件下で一般化可能か?
  • RQ5低リソース適応において、ドメインスタイルの転送と並行して、意味的コンテンツをどの程度保持できるか?

主な発見

  • 低リソースの教師あり設定において、SVHNからMNISTに適応する際、ACALは数字分類精度を14%向上させ、MNISTからSVHNに適応する際も4%向上させた。
  • 少数の非教師ありターゲットサンプルしか利用できない状況でも、ACALは多くの高リソース非教師ありドメイン適応モデルを上回った。
  • SVHNからMNISTに適応する際、ACALはMNISTで97.98%のテスト精度を達成し、以前の最先端手法を上回った。
  • 音声ドメインの適応において、男性声から女性声に適応する際、TIMITデータセットで音素誤り率(PER)を5%低減し、本物の女性データで訓練されたモデルの性能に近づいた。
  • 追加の未ラベルデータを組み合わせた場合、ACALはPERを18.44まで低減し、ベースラインを顕著に上回った。
  • 男性声から女性声への適応において、ACALの性能は本物の女性データで訓練されたモデルの性能にほぼ一致しており、分布転送の高精度性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。