QUICK REVIEW

[논문 리뷰] Impact of the Number of Votes on the Reliability and Validity of Subjective Speech Quality Assessment in the Crowdsourcing Approach

Babak Naderi, Tobias Hosfeld|arXiv (Cornell University)|2020. 03. 25.

Speech and Audio Processing참고 문헌 12인용 수 10

한 줄 요약

이 연구는 ITU-T Rec. P.808 지침을 사용하여 주관적인 음성 품질 평가의 신뢰도와 타당도에 영향을 미치는 커뮤니티 기반 투표 수의 영향을 조사한다. 세 가지 다른 플랫폼에서 실시한 커뮤니티 기반 실험을 통해 세 개의 음성 데이터셋을 이용하여 MOS 점수를 실험실 기반 골드 표준과 비교한 결과, 조건당 60표가 제공될 경우 충분한 신뢰도와 타당도를 확보할 수 있으며, 이 이상의 투표 수에서는 추가적인 개선 효과가 미미한 것으로 나타났다.

ABSTRACT

The subjective quality of transmitted speech is traditionally assessed in a controlled laboratory environment according to ITU-T Rec. P.800. In turn, with crowdsourcing, crowdworkers participate in a subjective online experiment using their own listening device, and in their own working environment. Despite such less controllable conditions, the increased use of crowdsourcing micro-task platforms for quality assessment tasks has pushed a high demand for standardized methods, resulting in ITU-T Rec. P.808. This work investigates the impact of the number of judgments on the reliability and the validity of quality ratings collected through crowdsourcing-based speech quality assessments, as an input to ITU-T Rec. P.808 . Three crowdsourcing experiments on different platforms were conducted to evaluate the overall quality of three different speech datasets, using the Absolute Category Rating procedure. For each dataset, the Mean Opinion Scores (MOS) are calculated using differing numbers of crowdsourcing judgements. Then the results are compared to MOS values collected in a standard laboratory experiment, to assess the validity of crowdsourcing approach as a function of number of votes. In addition, the reliability of the average scores is analyzed by checking inter-rater reliability, gain in certainty, and the confidence of the MOS. The results provide a suggestion on the required number of votes per condition, and allow to model its impact on validity and reliability.

연구 동기 및 목표

커뮤니티 기반 음성 품질 평가에서 평가 수의 영향이 신뢰도와 타당도에 미치는 영향을 평가하기 위해.
ITU-T Rec. P.808 지침을 사용하여 커뮤니티 기반 결과를 실험실 기반 골드 표준과 비교하기 위해.
신뢰롭고 타당한 MOS 추정을 보장하기 위한 최소한의 조건당 투표 수를 결정하기 위해.
투표 수에 따른 평가자 간 신뢰도, 신뢰구간 폭, 실험실 데이터와의 상관관계를 평가하기 위해.

제안 방법

ITU-T Rec. P.808 절차를 사용하여 Amazon Mechanical Turk, Prolific, 그리고 독일의 플랫폼에서 세 개의 커뮤니티 기반 실험을 수행하였다.
세 개의 ITU-T P.863 데이터셋(401, 501, 701)에서 품질 평가를 위해 절대 범주 평가(ACR)를 사용하였다.
반복 샘플링 시뮬레이션을 통해 조건당 투표 수(n = 25에서 200)를 다양하게 설정하여 MOS 점수를 수집하였다.
타당도 평가를 위해 커뮤니티 기반 및 실험실 기반 MOS 간 스피어만의 순서상관계수와 RMSE를 계산하였다.
비모수적 부트스트랩 재표집을 사용하여 신뢰구간 폭을 계산하여 불확실성 수준을 측정하였다.
평가자 간 상관계수(IQR)를 계산하기 위해 개별 평가자와 그룹 평균 간의 스피어만 순서상관계수를 사용하였다.

실험 결과

연구 질문

RQ1조건당 투표 수가 실험실 기반 골드 표준과 비교할 때 커뮤니티 기반 MOS의 타당성에 어떻게 영향을 미치는가?
RQ2커뮤니티 기반 음성 품질 평가에서 안정적이고 신뢰할 수 있는 MOS 추정을 확보하기 위해 필요한 최소 투표 수는 얼마인가?
RQ3신뢰구간 폭과 평가자 간 신뢰도는 투표 수가 증가함에 따라 어떻게 변화하는가?
RQ4데이터셋 특성에 따른 차이(예: 언어, 왜곡 유형)가 안정적인 결과를 얻기 위한 필요한 투표 수에 영향을 미치는가?
RQ5데이터 정제(예: 정확도가 낮거나 听력 장애가 있는 작업자 제거)가 신뢰도와 타당도에 뚜렷한 개선 효과를 미치는가?

주요 결과

커뮤니티 기반 및 실험실 기반 MOS 간 스피어만 순서상관계수는 0.89에서 0.97 사이로 나타나 모든 데이터셋에서 높은 타당도를 보였다.
커뮤니티 기반 및 실험실 MOS 간 RMSE는 401의 경우 0.48에서 0.32로 감소하였고, 501과 701의 경우도 동일하게 0.48에서 0.32로 감소하였으며, 조건당 60표를 초과하면 추가 개선 효과가 미미하였다.
조건당 60표를 초과한 이후에는 신뢰구간 폭이 0.4 이하로 감소하고 안정화되었으며, W(n) < 0.3를 확보하기 위해서는 최소 115표가 필요하였다.
평가자 간 신뢰도(IQR)는 60~100표 이후에 포화 상태에 도달하였고, 그 이상의 투표 수에서는 유의미한 향상이 없었다.
Dataset 501은 스위스 독일어 대비 독일어 커뮤니티 기반 작업자 간 언어 차이로 인해 상관계수가 낮게 나타났다(0.89), 반면 Dataset 701은 가장 높은 IQR(0.777)를 기록하여 공격적인 데이터 정제가 영향을 미쳤을 가능성이 있다.
일차 매핑을 통해 Dataset 401의 편향을 감소시켜 RMSE를 0.17로 낮추어, 후처리 조치가 타당도를 추가로 향상시킬 수 있음을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.