QUICK REVIEW

[論文レビュー] Impact of the Number of Votes on the Reliability and Validity of Subjective Speech Quality Assessment in the Crowdsourcing Approach

Babak Naderi, Tobias Hosfeld|arXiv (Cornell University)|Mar 25, 2020

Speech and Audio Processing参考文献 12被引用数 10

ひとこと要約

本研究では、ITU-T Rec. P.808指針に従って、クラウドソーシングによる主観的音声品質評価の信頼性および妥当性に、投票数が与える影響を調査する。異なるプラットフォームで実施した3つのクラウドソーシング実験において、3つの音声データセットを用い、MOSスコアをラボベースのゴールドスタンダードと比較した結果、1条件あたり60票が信頼性および妥当性を十分に満たすことが判明し、この閾値を超えても大きな改善は得られなかった。

ABSTRACT

The subjective quality of transmitted speech is traditionally assessed in a controlled laboratory environment according to ITU-T Rec. P.800. In turn, with crowdsourcing, crowdworkers participate in a subjective online experiment using their own listening device, and in their own working environment. Despite such less controllable conditions, the increased use of crowdsourcing micro-task platforms for quality assessment tasks has pushed a high demand for standardized methods, resulting in ITU-T Rec. P.808. This work investigates the impact of the number of judgments on the reliability and the validity of quality ratings collected through crowdsourcing-based speech quality assessments, as an input to ITU-T Rec. P.808 . Three crowdsourcing experiments on different platforms were conducted to evaluate the overall quality of three different speech datasets, using the Absolute Category Rating procedure. For each dataset, the Mean Opinion Scores (MOS) are calculated using differing numbers of crowdsourcing judgements. Then the results are compared to MOS values collected in a standard laboratory experiment, to assess the validity of crowdsourcing approach as a function of number of votes. In addition, the reliability of the average scores is analyzed by checking inter-rater reliability, gain in certainty, and the confidence of the MOS. The results provide a suggestion on the required number of votes per condition, and allow to model its impact on validity and reliability.

研究の動機と目的

投票数がクラウドソーシングによる主観的音声品質評価の信頼性および妥当性に与える影響を評価すること。
ITU-T Rec. P.808指針に従い、クラウドソーシングの結果をラボベースのゴールドスタンダードと比較すること。
信頼的かつ妥当なMOS推定を保証するための、1条件あたりの最小投票数を特定すること。
投票数を関数としての評価者間信頼性、信頼区間の幅、およびラボデータとの相関を評価すること。

提案手法

Amazon Mechanical Turk、Prolific、およびドイツのプラットフォームで3つのクラウドソーシング実験を実施し、ITU-T Rec. P.808の手順に従った。
3つのITU-T P.863データセット（401、501、701）で、絶対的カテゴリー評価（ACR）を用いて品質評価を実施した。
繰り返しサンプリングのシミュレーションにより、1条件あたりの投票数（n = 25 から 200）を変化させ、MOSスコアを収集した。
妥当性を評価するために、クラウドソーシングとラボベースのMOS間のスピアマン順位相関およびRMSEを計算した。
不パラメトリックブートストラップ再サンプリングを用いて信頼区間の幅を計算し、不確実性を測定した。
評価者間信頼性（IRR）を、個々の評価者とグループ平均との間のスピアマン順位相関を用いて評価した。

実験結果

リサーチクエスチョン

RQ11条件あたりの投票数が、ラボベースのゴールドスタンダードと比較したクラウドソーシングMOSの妥当性にどのように影響するか？
RQ2クラウドソーシングによる音声品質評価で、安定的かつ信頼的なMOS推定を達成するための最小投票数は何か？
RQ3投票数の増加に伴い、信頼区間の幅および評価者間信頼性はどのように変化するか？
RQ4データセット固有の変動要因（例：言語、劣化タイプ）が、信頼できる結果を得るための必要な投票数に与える影響はどの程度か？
RQ5データクリーニング（例：正確性が低い、聴覚障害のある作業者の除外）が、信頼性および妥当性を顕著に向上させるか？

主な発見

クラウドソーシングとラボベースのMOS間のスピアマン順位相関は、全データセットで0.89から0.97の間であり、高い妥当性を示した。
クラウドソーシングとラボMOS間のRMSEは、401で0.48から0.32、501で0.48から0.32、701で0.48から0.32に低下し、1条件あたり60票を超えても改善は最小限にとどまった。
1条件あたり60票を超えると、信頼区間の幅は0.4未満に低下し、安定化した。W(n) < 0.3を達成するには、少なくとも115票が必要だった。
評価者間信頼性（IRR）は、60〜100票を超えるとピークに達し、以降は顕著な改善が見られなかった。
データセット501では、言語の違い（スイスドイツ語対ドイツ語のクラウドワーカー）のため、相関が低く（0.89）なった可能性がある。一方、データセット701は最高のIRR（0.777）を示し、積極的なデータクリーニングが要因である可能性がある。
一次マッピングにより、データセット401のバイアスが低減され、RMSEは0.17にまで低下した。これは、後処理により妥当性をさらに向上させられることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。