QUICK REVIEW

[논문 리뷰] A Comparison of Online Automatic Speech Recognition Systems and the Nonverbal Responses to Unintelligible Speech

Joshua Y. Kim, Chunfeng Liu|arXiv (Cornell University)|2019. 04. 28.

Speech and dialogue systems인용 수 23

한 줄 요약

이 연구는 의료 학생-환자 상호작용의 비디오 회의 데이터를 사용하여 수동 번역과 비교해 다섯 가지 온라인 자동 음성 인식(ASR) 시스템—Google 클라우드, IBM 워튼, 마이크로소프트 애저, 트린트, 유튜브—의 성능을 평가한다. 유튜브 ASR가 가장 높은 정확도를 보였으며, 높은 단어 오류율은 청취자의 미소 변화의 다양성 증가와 관련이 있어, 비언어적 신호가 말의 이해 어려움을 나타내는 것으로 나타났다.

ABSTRACT

Automatic Speech Recognition (ASR) systems have proliferated over the recent years to the point that free platforms such as YouTube now provide speech recognition services. Given the wide selection of ASR systems, we contribute to the field of automatic speech recognition by comparing the relative performance of two sets of manual transcriptions and five sets of automatic transcriptions (Google Cloud, IBM Watson, Microsoft Azure, Trint, and YouTube) to help researchers to select accurate transcription services. In addition, we identify nonverbal behaviors that are associated with unintelligible speech, as indicated by high word error rates. We show that manual transcriptions remain superior to current automatic transcriptions. Amongst the automatic transcription services, YouTube offers the most accurate transcription service. For non-verbal behavioral involvement, we provide evidence that the variability of smile intensities from the listener is high (low) when the speaker is clear (unintelligible). These findings are derived from videoconferencing interactions between student doctors and simulated patients; therefore, we contribute towards both the ASR literature and the healthcare communication skills teaching community.

연구 동기 및 목표

다섯 가지 주요 온라인 ASR 시스템의 번역 정확도를 수동 번역과 비교 평가하기.
특히 의료 커뮤니케이션 맥락에서 이해 어려운 말과 관련된 비언어적 행동 반응을 특정하기.
단어 오류율로 측정된 말의 명료도 변화에 따라 청취자의 비언어적 신호, 예를 들어 얼굴 표정이 어떻게 변하는지 이해하기.
의료 커뮤니케이션 훈련의 연구 및 임상 적용을 위한 정확한 ASR 도구 선택을 지원하기.

제안 방법

의료 학생과 시뮬레이션 환자 간의 비디오 회의 상호작용을 실시하여 대화를 수집함.
자동 번역과 비교를 위한 기준으로 수동 번역을 확보함.
동일한 오디오 데이터를 다섯 가지 온라인 ASR 시스템—Google 클라우드, IBM 워튼, 마이크로소프트 애저, 트린트, 유튜브—에 의해 변환함.
수동 번역과의 비교를 위해 단어 오류율(WER)을 계산하여 ASR 시스템 성능을 정량적으로 평가함.
얼굴 랜드마크 검출 및 미소 강도 지표를 사용하여 청취자의 얼굴 표정을 분석하여 말의 명료도에 대한 비언어적 반응을 평가함.
WER 값과 미소 강도의 변동성을 관련지어 말의 명료도와 관련된 행동 패턴을 식별함.

실험 결과

연구 질문

RQ1수동 번역과 비교할 때 어느 온라인 ASR 시스템이 가장 정확한 번역을 생성하는가?
RQ2이해 어려운 말에 대해 비언어적 행동, 특히 미소 강도는 어떻게 변화하는가?
RQ3단어 오류율과 청취자의 얼굴 표정 변동성 사이에 측정 가능한 관계가 존재하는가?
RQ4비언어적 신호는 실시간 커뮤니케이션에서 말의 명료도를 신뢰할 수 있는 지표로 사용될 수 있는가?

주요 결과

유튜브의 ASR 서비스는 평가된 다섯 시스템 중에서 가장 낮은 단어 오류율을 보이며, 이 데이터셋에 가장 정확한 것으로 나타났다.
수동 번역은 테스트된 모든 자동 번역 시스템보다 유의미하게 더 높은 정확도를 보였다.
화자의 말이 명료도가 낮을수록, 즉 단어 오류율이 높을수록 청취자의 미소 강도 변동성이 증가했다.
이해 어려운 말 동안에 높은 미소 강도 변동성이 관찰되어, 커뮤니케이션 장애에 대응하는 정서적 또는 인지적 참여가 이루어지고 있음을 시사한다.
단어 오류율과 비언어적 반응 간의 상관관계는 실시간 환경에서 얼굴 행동을 말의 명료도의 대체 지표로 사용할 수 있음을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.