QUICK REVIEW

[논문 리뷰] Boosting Objective Scores of Speech Enhancement Model through MetricGAN Post-Processing

Szu‐Wei Fu, Chien-Feng Liao|arXiv (Cornell University)|2020. 06. 18.

Speech and Audio Processing참고 문헌 15인용 수 5

한 줄 요약

이 논문은 PESQ 점수를 향상시키기 위해 순환형 트랜스포머를 미세조정하는 MetricGAN 기반의 후처리 프레임워크를 제안한다. 위치 인코딩을 컨볼루션으로 대체함으로써 성능을 향상시킨다. 이 방법은 목적적 평가와 주관적 평가에서 DNS 챌린지 기준선을 크게 뛰어넘는다.

ABSTRACT

The Transformer architecture has shown its superior ability than recurrent neural networks on many different natural language processing applications. Therefore, this study applies a modified Transformer on the speech enhancement task. Specifically, the positional encoding may not be necessary and hence is replaced by convolutional layers. To further improve PESQ scores of enhanced speech, the L_1 pre-trained Transformer is fine-tuned by MetricGAN framework. The proposed MetricGAN can be treated as a general post-processing module to further boost interested objective scores. The experiments are conducted using the data sets provided by the organizer of the Deep Noise Suppression (DNS) challenge. Experimental results demonstrate that the proposed system outperforms the challenge baseline in both subjective and objective evaluation with a large margin.

연구 동기 및 목표

음성 향상 모델에서 목적적 음질 점수—특히 PESQ 점수—를 향상시키는 것.
표준 트랜스포머가 음성 향상 작업에서 가지는 한계를 해결하기 위해 위치 인코딩을 컨벌루션 레이어로 대체하는 것.
MetricGAN 프레임워크를 일반 목적의 후처리 모듈로 활용하여 특정 목적적 지표를 향상시키는 것.
제안된 방법이 DNS 챌린지에서 제공하는 실제 노이즈 있는 음성 데이터를 기반으로 평가되는 것.

제안 방법

기존 트랜스포머 아키텍처를 수정하여 사인 위치 인코딩을 컨벌루션 레이어로 대체함으로써 음성 향상 작업에 더 적합하게 만든다.
청결한 음성과 향상된 음성 쌍을 사용하여 L1 손실을 기반으로 사전 훈련하여 음성 복원 능력을 학습한다.
사전 훈련된 모델을 MetricGAN 프레임워크를 사용하여 미세조정함으로써 PESQ와 같은 목적적 품질 지표를 최적화한다.
MetricGAN은 트랜스포머의 출력을 보정하여 원하는 목적적 점수를 최대화하는 후처리 모듈로 기능한다.
적대적 학습을 통해 엔드 투 엔드로 프레임워크를 훈련하며, 판별자는 실제 음성과 향상된 음성을 목적적 점수 품질 기반으로 구분하도록 훈련된다.
성능 검증을 위해 DNS 챌린지 데이터셋을 기반으로 다수의 평가 지표를 활용한 실험을 수행한다.

실험 결과

연구 질문

RQ1위치 인코딩을 컨벌루션 레이어로 대체함으로써 트랜스포머의 음성 향상 성능 향상이 가능한가?
RQ2사전 훈련된 트랜스포머에 MetricGAN 프레임워크를 후처리 모듈로 적용했을 때 PESQ 점수 향상 정도는 어느 정도인가?
RQ3제안된 방법이 DNS 챌린지 기준선에 비해 더 뛰어난 목적적 및 주관적 음성 품질을 달성하는가?
RQ4MetricGAN 후처리 모듈이 PESQ 외의 다른 목적적 지표 향상에도 일반화될 수 있는가?

주요 결과

제안된 방법은 목적적 평가와 주관적 평가에서 모두 DNS 챌린지 기준선을 크게 뛰어넘는다.
위치 인코딩을 컨벌루션 레이어로 대체함으로써 음성 향상 작업에서 모델 성능이 향상된다.
MetricGAN을 통해 사전 훈련된 트랜스포머를 미세조정하면 PESQ 점수에 상당한 향상이 이루어진다.
MetricGAN 후처리 모듈은 메인 모델의 재훈련 없이도 목적적 지표 향상에 효과적으로 기여한다.
기준선 대비 큰 성능 향상을 달성하여 제안된 프레임워크의 효과성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.