QUICK REVIEW

[논문 리뷰] NORESQA: A Framework for Speech Quality Assessment using Non-Matching References

Pranay Manocha, Buye Xu|arXiv (Cornell University)|2021. 09. 16.

Speech and Audio Processing참고 문헌 72인용 수 24

한 줄 요약

이 논문은 청소화된 기준 쌍이나 주관적 레이블이 필요 없이, 음성 신호와 일치하지 않는 기준(NMR) 간의 상대적 품질 점수를 예측하는 새로운 프레임워크인 NORESQA를 제안한다. NMR에서 대조적 학습을 통해 훈련된 이 방법은 MOS 상관계수 0.816을 달성하며, 후행 음성 개선 전훈에서 DNSMOS를 능가하여 실제 저자원 환경에서의 강건성과 일반화 능력을 입증한다.

ABSTRACT

The perceptual task of speech quality assessment (SQA) is a challenging task for machines to do. Objective SQA methods that rely on the availability of the corresponding clean reference have been the primary go-to approaches for SQA. Clearly, these methods fail in real-world scenarios where the ground truth clean references are not available. In recent years, non-intrusive methods that train neural networks to predict ratings or scores have attracted much attention, but they suffer from several shortcomings such as lack of robustness, reliance on labeled data for training and so on. In this work, we propose a new direction for speech quality assessment. Inspired by human's innate ability to compare and assess the quality of speech signals even when they have non-matching contents, we propose a novel framework that predicts a subjective relative quality score for the given speech signal with respect to any provided reference without using any subjective data. We show that neural networks trained using our framework produce scores that correlate well with subjective mean opinion scores (MOS) and are also competitive to methods such as DNSMOS, which explicitly relies on MOS from humans for training networks. Moreover, our method also provides a natural way to embed quality-related information in neural networks, which we show is helpful for downstream tasks such as speech enhancement.

연구 동기 및 목표

청소화된 기준이나 노이즈가 섞인 주관적 레이블이 필요한 전통적 전반적 기준 및 비침입형 SQA 방법의 한계를 해결하기 위해.
청소화된 기준이 확보되지 않은 실제 환경에서의 음성 품질 평가를 가능하게 하기 위해.
콘텐츠 정렬 없이도 인간과 유사한 상대적 품질 비교(즉, 내용이 일치하지 않는 음성 신호 간 비교)를 신경망을 통해 수행하기 위해.
후행 작업(예: 음성 개선)에서 일반화 능력을 향상시키기 위해 미분 가능하고 비지도 학습 신호를 제공하기 위해.
대규모 노이즈가 섞인 주관적 데이터셋에 대한 의존도를 줄이기 위해, NMR과의 쌍별 비교를 통해 품질을 학습하기 위해.

제안 방법

프레임워크는 테스트 음성 신호와 일치하지 않는 기준(NMR) 간의 상대적 품질을 예측하도록 대조적 학습 목표를 사용한다.
NMR은 다양하고 품질이 확보된 기준 풀에서 샘플링되어, 콘텐츠 정렬 없이도 품질 평가의 기반을 제공한다.
테스트 신호가 더 높은 품질일 경우, 품질 점수를 NMR의 품질에 가까워지도록 하는 대조적 손실을 최소화하도록 모델을 훈련한다.
프레임워크는 미분 가능하며, 엔드 투 엔드 음성 개선 모델의 전훈 목적으로 사용될 수 있다.
전훈 중에 청소화된-노이즈 쌍 데이터가 필요 없어, 대규모 비쌍화된 노이즈 데이터를 활용할 수 있다.
프레임워크는 2AFC(이원선택강제선택) 작업 및 후행 음성 개선 파인튜닝을 통해 평가된다.

실험 결과

연구 질문

RQ1청소화된 기준 신호에 접근할 수 없더라도 신경망이 일치하지 않는 기준(NMR)에 대해 상대적 품질을 평가할 수 있는가?
RQ2NMR을 사용한 상대적 품질 예측이 기존 비침입형 방법보다 주관적 MOS와 더 높은 상관성을 가지는가?
RQ3이 프레임워크가 청소화된 데이터 쌍 없이도 음성 개선 성능 향상에 전훈 목적으로 사용될 수 있는가?
RQ4다양한 왜곡 상황에서 DNSMOS와 비교해 본다면, 이 프레임워크는 강건성과 일반화 능력 면에서 뛰어나게 되는가?
RQ5NMR을 사용한 대조적 학습 목표가 절대 점수 기반 방법에 비해 예측의 분산과 노이즈를 줄이는 데 기여하는가?

주요 결과

NORESQA 프레임워크는 VCC2018 데이터셋에서 2AFC 정확도 81.6%를 달성하여, DNSMOS(68.7%)를 능가하며 주관적 MOS와 강한 상관성을 보였다.
이 방법은 VCC2018 데이터셋에서 MOS와 피어슨 상관계수 0.816을 기록하여 인간 인식과 높은 일치를 보였다.
NORESQA를 사용해 음성 개선 모델을 전훈하면, 모든 데이터 분할(33%, 66%, 100%)에서 다섯 가지 목적적 지표(PESQ, STOI, SNRseg, CSIG, CBAK, COVL)가 향상되었다.
NORESQA 전훈의 성과는 고SNR 조건에서 가장 두드러지게 나타났는데, 이는 청각적 열화가 미세하고 학습하기 어려운 상황에서 특히 두각을 나타냈다.
비쌍화된 데이터에서 대조적 학습을 통해 대규모 노이즈가 섞인 주관적 데이터셋에 대한 의존도를 줄일 수 있었다.
상대적 품질 평가가 NMR을 사용할 경우, 전반적 기준 및 절대 점수 기반 SQA 방법의 효과적인 대안이 될 수 있음을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.