QUICK REVIEW

[논문 리뷰] Augmented Cyclic Adversarial Learning for Low Resource Domain Adaptation

Ehsan Hosseini-Asl, Yingbo Zhou|arXiv (Cornell University)|2018. 07. 01.

Speech Recognition and Synthesis참고 문헌 46인용 수 35

한 줄 요약

이 논문은 교차 도메인 번역 중 의미 정보를 유지하기 위해 기존의 재구성 기반 사이클 일致성 대신 작업에 특화된 모델을 사용하는 도메인 적응 프레임워크인 보완된 순환 적대적 학습(ACAL)을 제안한다. 작업에 특화된 지도 학습을 암묵적인 일치 제약 조건으로 활용함으로써, ACAL은 자원이 제한된 환경에서 최신 기술 수준의 성능을 달성하며, 숫자 분류 정확도를 최대 14% 향상시키고 TIMIT 데이터셋에서 음성 인식의 음소 오류율을 5% 감소시킨다.

ABSTRACT

Training a model to perform a task typically requires a large amount of data from the domains in which the task will be applied. However, it is often the case that data are abundant in some domains but scarce in others. Domain adaptation deals with the challenge of adapting a model trained from a data-rich source domain to perform well in a data-poor target domain. In general, this requires learning plausible mappings between domains. CycleGAN is a powerful framework that efficiently learns to map inputs from one domain to another using adversarial training and a cycle-consistency constraint. However, the conventional approach of enforcing cycle-consistency via reconstruction may be overly restrictive in cases where one or more domains have limited training data. In this paper, we propose an augmented cyclic adversarial learning model that enforces the cycle-consistency constraint via an external task specific model, which encourages the preservation of task-relevant content as opposed to exact reconstruction. We explore digit classification in a low-resource setting in supervised, semi and unsupervised situation, as well as high resource unsupervised. In low-resource supervised setting, the results show that our approach improves absolute performance by 14% and 4% when adapting SVHN to MNIST and vice versa, respectively, which outperforms unsupervised domain adaptation methods that require high-resource unlabeled target domain. Moreover, using only few unsupervised target data, our approach can still outperforms many high-resource unsupervised models. In speech domains, we similarly adopt a speech recognition model from each domain as the task specific model. Our approach improves absolute performance of speech recognition by 2% for female speakers in the TIMIT dataset, where the majority of training samples are from male voices.

연구 동기 및 목표

라벨이 부족한 저자원 타겟 도메인에서의 도메인 적응 문제를 해결하기 위해.
기존의 CycleGAN이 정확한 재구성에 의존하여 자원이 제한된 타겟 데이터에서는 최적화되지 않을 수 있는 한계를 극복하기 위해.
재구성 대신 작업에 특화된 모델을 사용하여 사이클 일치 강화를 통해 의미 정보를 더 효과적으로 유지하기 위해.
저자원 도메인에서 분포 모델링을 위해 작업에 특화된 모델을 보조 신호로 사용하여 판별자 학습을 향상시키기 위해.
지도, 준지도, 비지도 설정 모두에서 시각 및 음성 도메인에 걸쳐 효과성을 입증하기 위해.

제안 방법

CycleGAN에서 표준 사이클 일치 손실을 각 도메인에서 훈련된 모델의 예측 정확도를 측정하는 작업에 특화된 손실로 대체한다.
작업에 특화된 모델을 해당 도메인의 판별자에 대한 추가적인 지도 신호로 사용하여 분포 모델링을 향상시킨다.
생성자 모델을 적대적 훈련을 통해 소스에서 타겟으로, 그리고 다시 돌아오는 방향으로 매핑하도록 훈련하면서, 작업에 특화된 모델의 출력이 사이클 전반에 걸쳐 일관되도록 보장한다.
작업에 특화된 모델을 사이클 일치 루프에 통합하여, 작업 관련 콘텐츠와 도메인 특화 스타일을 효과적으로 분리한다.
음성 실험에서 다중 판별자 훈련을 적용하여 적대적 안정성과 성능을 향상시킨다.
음성 데이터에 스펙트로그램 표현을 사용하고, 음소 오류율(PER)을 평가 지표로 사용한다.

실험 결과

연구 질문

RQ1재구성 기반 사이클 일치성을 작업에 특화된 손실로 대체하면 저자원 환경에서 도메인 적응 성능이 향상되는가?
RQ2타겟 데이터가 부족할 때 작업에 특화된 모델을 보조 신호로 사용하면 판별자 학습이 향상되는가?
RQ3소수의 타겟 샘플만 있을 때 ACAL은 기존의 비지도 도메인 적응 방법보다 우수한가?
RQ4ACAL은 저자원 조건에서 숫자 이미지 분류와 음성 인식과 같은 다양한 도메인으로 일반화 가능한가?
RQ5저자원 적응에서 도메인 스타일을 전달할 때 ACAL은 의미 정보를 얼마나 잘 유지하는가?

주요 결과

저자원 지도 설정에서 SVHN에서 MNIST로의 적응 시 ACAL은 숫자 분류 정확도를 14% 향상시키고, MNIST에서 SVHN로의 적응 시 4% 향상시킨다.
비지도 타겟 샘플이 몇 개뿐일 때도 ACAL은 많은 자원을 사용하는 많은 비지도 도메인 적응 모델을 뛰어넘는 성능을 보인다.
SVHN에서 MNIST로의 적응 시 ACAL은 MNIST에서의 테스트 정확도가 97.98%에 이르며, 이는 이전 최고 기술 수준의 방법을 초월한다.
음성 도메인 적응에서 남성 음성에서 여성 음성으로의 적응 시 ACAL은 TIMIT 데이터셋에서 음소 오류율을 5% 감소시켜, 실제 여성 데이터로 훈련된 모델의 성능에 가까워진다.
추가적인 무라벨 데이터를 결합하면 ACAL은 PER를 18.44로 더 낮추며, 기준 모델보다 뚜렷한 성능 향상을 보인다.
남성 음성에서 여성 음성으로의 적응에서 ACAL의 성능은 실제 여성 음성 데이터로 훈련된 모델의 성능에 거의 근접함을 보여주며, 분포 전달의 높은 정밀도를 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.