QUICK REVIEW

[논문 리뷰] Audio inpainting with generative adversarial network

Pirmin Philipp Ebner, A. Eltelt|arXiv (Cornell University)|2020. 03. 13.

Music and Audio Processing참고 문헌 19인용 수 25

한 줄 요약

이 논문은 500–550 ms 간격의 장거리 음성 복원을 위해 단일 및 장거리 음성 경계를 활용하여 전반적인 일관성과 고주파수 재구성 성능을 향상시키는 이중 판별자 워셔스타인 GAN(D2WGAN)을 제안한다. D2WGAN은 고전적 WGAN보다 객관적 차이 평가(ODG) 점수에서 뛰어난 성능을 보이며, 특히 저주파 스펙트럼과 동적인 톤을 가진 악기들—기타 및 오케스트라 배경이 있는 솔로 피아노—에서 두각을 나타낸다.

ABSTRACT

We study the ability of Wasserstein Generative Adversarial Network (WGAN) to generate missing audio content which is, in context, (statistically similar) to the sound and the neighboring borders. We deal with the challenge of audio inpainting long range gaps (500 ms) using WGAN models. We improved the quality of the inpainting part using a new proposed WGAN architecture that uses a short-range and a long-range neighboring borders compared to the classical WGAN model. The performance was compared with two different audio instruments (piano and guitar) and on virtuoso pianists together with a string orchestra. The objective difference grading (ODG) was used to evaluate the performance of both architectures. The proposed model outperforms the classical WGAN model and improves the reconstruction of high-frequency content. Further, we got better results for instruments where the frequency spectrum is mainly in the lower range where small noises are less annoying for human ear and the inpainting part is more perceptible. Finally, we could show that better test results for audio dataset were reached where a particular instrument is accompanist by other instruments if we train the network only on this particular instrument neglecting the other instruments.

연구 동기 및 목표

기존 방법이 비정상성과 고차원성으로 인해 실패하는 장거리 음성 복원(500–550 ms) 문제를 해결하기 위해.
생성기의 입력에 단기 및 장기적 맥락 정보를 활용하여 음성 품질을 향상시키기 위해.
특정 악기에서만 훈련하면서 동반 악기들을 무시할 경우 일반화 능력과 청취자 중심의 품질이 향상되는지 조사하기 위해.
신뢰할 수 있는 자동화된 음성 복원 평가 지표가 없기 때문에 인간 중심의 객관적 차이 평가(ODG)를 사용하여 모델 성능을 평가하기 위해.

제안 방법

결함이 없는 음성 세그먼트를 복원하기 위해, 갭 주변의 국소(단기) 맥락과 전반적(장기) 맥락에 중점을 둔 두 개의 판별자를 갖는 새로운 D2WGAN 아키텍처를 제안한다.
시간적 및 스펙트럼적 정밀도를 유지하기 위해 스펙트로그램 또는 다중 모odal 접근 방식 대신 웨이브포맷 기반 생성을 사용한다.
생성기를 통해 근접한 이웃과 먼 맥락 세그먼트를 조건으로 하여 누락된 음성 세그먼트를 재구성하도록 훈련시킨다.
생성기와 두 판별자 간의 이중 플레이어 최소-최대 게임을 구현하며, 생성기는 두 판별자 모두가 생성된 음성을 진짜로 판단하도록 속이려는 목표를 가진다.
훈련 안정성과 모드 커버리지 향상을 위해 WGAN 프레임워크 내에서 기울기 페널티와 가중치 클리핑을 적용한다.
신뢰할 수 있는 자동화된 음성 품질 평가 지표가 없기 때문에 인간 평가를 통해 객관적 차이 평가(ODG)를 사용하여 성능을 평가한다.

실험 결과

연구 질문

RQ1단기 및 장기적 맥락을 통합함으로써 고전적 WGAN에 비해 이중 판별자 아키텍처가 장거리 음성 복원 성능을 향상시킬 수 있는가?
RQ2배경 악기들을 생략하고 특정 악기에서만 훈련할 경우 혼합 음성 환경에서 청취자 중심의 품질이 향상되는가?
RQ3악기의 주파수 스펙트럼(예: 저주파수 대비 고주파수 성분)이 복원된 음성의 청취자 품질에 어떤 영향을 미치는가?
RQ4특정 악기에서만 훈련된 모델이 다양한 악기와 음성 데이터셋에 대해 얼마나 일반화되는가, 특히 단일 악기에서만 훈련된 경우에 대해 어떻게 되는가?
RQ5훈련 스텝 수를 늘임으로써 과적합 없이 성능 향상을 이룰 수 있으며, 더 긴 맥락 창을 사용할 경우 모델이 이에 유리한가?

주요 결과

D2WGAN은 세 가지 데이터셋(Piano, Guitar, Maestro) 전반에서 고전적 WGAN을 뛰어넘었으며, ODG 점수에서 통계적으로 유의미한 향상을 보였다.
D2WGAN은 특히 기타 및 오케스트라 배경이 있는 솔로 피아노와 같은 악기에서 고주파 성분의 재구성 능력이 뛰어나, 성능 향상에 기여했다.
배경 오케스트라 성분을 억제하면서도 목표 악기(예: 피아노)에서만 훈련한 결과, 혼합 음성 데이터셋에서 더 나은 성능을 기록하여 불필요한 음성 콘텐츠의 간섭을 줄였다는 점에서 유의미했다.
작은 노이즈 아티팩트가 덜 눈에 띄고 복원이 더 두드러지는 저주파 스펙트럼을 가진 악기에서 더 나은 결과를 얻었다.
140,000단계까지 훈련 스텝을 늘임으로써 과적합 없이 성능 향상을 이룰 수 있었으며, 이는 모델이 더 긴 훈련 기간과 최적화 가능성을 가짐을 시사했다.
D2WGAN의 이중 판별자 설계는 국소적 및 전반적 맥락을 효과적으로 활용하여 전반적인 일관성을 향상시키고 장거리 갭 복원에서 아티팩트를 줄였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.