QUICK REVIEW

[論文レビュー] Augmented Cyclic Adversarial Learning for Domain Adaptation.

Ehsan Hosseini-Asl, Yingbo Zhou|arXiv (Cornell University)|Jul 1, 2018

Speech Recognition and Synthesis参考文献 33被引用数 4

ひとこと要約

本論文は、正確な再構成ではなく、タスク固有のモデルを用いてサイクル整合性を強制する拡張された巡回的敵対的学習フレームワークを提案する。これにより、低リソースなドメイン適応においてタスクに関連するコンテンツを保持する。本手法は、数字分類で14%、音声認識で2%の向上を達成し、最小限のターゲットデータで高リソースな教師なし手法を上回る。

ABSTRACT

Training a model to perform a task typically requires a large amount of data from the domains in which the task will be applied. However, it is often the case that data are abundant in some domains but scarce in others. Domain adaptation deals with the challenge of adapting a model trained from a data-rich source domain to perform well in a data-poor target domain. In general, this requires learning plausible mappings between domains. CycleGAN is a powerful framework that efficiently learns to map inputs from one domain to another using adversarial training and a cycle-consistency constraint. However, the conventional approach of enforcing cycle-consistency via reconstruction may be overly restrictive in cases where one or more domains have limited training data. In this paper, we propose an augmented cyclic adversarial learning model that enforces the cycle-consistency constraint via an external task specific model, which encourages the preservation of task-relevant content as opposed to exact reconstruction. We explore digit classification in a low-resource setting in supervised, semi and unsupervised situation, as well as high resource unsupervised. In low-resource supervised setting, the results show that our approach improves absolute performance by 14% and 4% when adapting SVHN to MNIST and vice versa, respectively, which outperforms unsupervised domain adaptation methods that require high-resource unlabeled target domain. Moreover, using only few unsupervised target data, our approach can still outperforms many high-resource unsupervised models. In speech domains, we similarly adopt a speech recognition model from each domain as the task specific model. Our approach improves absolute performance of speech recognition by 2% for female speakers in the TIMIT dataset, where the majority of training samples are from male voices.

研究の動機と目的

ラベル付きデータが乏しい低リソースなターゲットドメインにおけるドメイン適応を解決すること。
正確な再構成を強制する従来の巡回整合性の限界を克服し、タスク関連特徴を歪めないようすること。
最小限のターゲットデータで、教師あり、半教師あり、教師なしドメイン適応設定における一般化性能を向上させること。
再構成を超えて、タスク固有のモデルが巡回整合性をどのように導くかを検討すること。
高リソースな教師なしベースラインと比較して、低リソースな状況下で最先端の性能を示すこと。

提案手法

標準の巡回整合性損失を、下流タスクに関連するコンテンツを保持するタスク固有のモデルに置き換えることで、ドメイン変換をガイドする。
敵対的学習を用いてドメイン間のマッピングを学習し、ソースドメインとターゲットドメイン間で現実的な翻訳を保証する。
分類器やASRモデルなどの外部のタスク固有モデルを導入し、再構成の代わりに意味的保存を重視する巡回整合性制約を監視する。
画像（SVHNからMNIST）と音声（TIMIT）の両ドメインに本フレームワークを適用し、低リソース条件下でのモデル適応を実現する。
敵対的損失、タスクモデルによる巡回整合性、タスク固有損失の組み合わせを用いて生成器を最適化する。
2段階の訓練プロセスを採用：まずタスク固有モデルを事前学習し、その後、タスクに配慮した巡回制約を伴うcycle-GANを共同で訓練する。

実験結果

リサーチクエスチョン

RQ1再構成に基づく巡回整合性をタスク固有の監視に置き換えることで、低リソースな状況下でのドメイン適応が向上するか？
RQ2少数のラベル付きターゲットサンプルしか利用できない状況で、本手法は高リソースな教師なしドメイン適応ベースラインと比較してどのように性能を発揮するか？
RQ3タスク固有のコンテンツ保存は、数字分類と音声認識の性能向上にどの程度寄与するか？
RQ4ターゲットドメインの学習サンプルがソースドメインに比べて著しく少ない場合でも、本手法は頑健性を維持できるか？
RQ5本フレームワークは、画像と音声といった異なるモodalの間でも、低リソース適応条件下で一般化可能か？

主な発見

本手法は、低リソースな教師あり設定下でSVHNからMNISTに適応する際、分類精度を14%向上させる。
MNISTからSVHNに適応する際、4%の絶対的向上を達成し、高リソースな教師なしドメイン適応手法を上回る。
わずか数個の教師なしターゲットサンプルしか利用しない状況でも、多くの高リソースな教師なしドメイン適応モデルを上回る性能を発揮する。
音声認識において、TIMITデータセットで女性話者の認識精度が2%向上した。男性話者が訓練データに多く含まれるが、本手法はその影響を軽減した。
巡回整合性にタスク固有モデルを用いることで、標準の再構成ベースのアプローチに比べて、識別に有用な特徴がよりよく保存された。
本フレームワークは、低リソースな適応条件下で、視覚的および音声的ドメインの両方で強力な一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。