[논문 리뷰] CoVoST 2 and Massively Multilingual Speech-to-Text Translation
CoVoST 2는 21개 언어에서 영어로의 번역과 영어에서 15개 언어로의 번역이 가능한 대규모 다중 언어 음성-텍스트 번역 코퍼스와 광범위한 다중 언어 ASR, MT, ST 기준선을 제공합니다. 이것은 대규모 다중 언어 ST와 저자원 언어 쌍에 대한 연구를 가능하게 합니다.
Speech translation has recently become an increasingly popular topic of research, partly due to the development of benchmark datasets. Nevertheless, current datasets cover a limited number of languages. With the aim to foster research in massive multilingual speech translation and speech translation for low resource language pairs, we release CoVoST 2, a large-scale multilingual speech translation corpus covering translations from 21 languages into English and from English into 15 languages. This represents the largest open dataset available to date from total volume and language coverage perspective. Data sanity checks provide evidence about the quality of the data, which is released under CC0 license. We also provide extensive speech recognition, bilingual and multilingual machine translation and speech translation baselines with open-source implementation.
연구 동기 및 목표
- 다양한 언어 커버리지를 갖춘 대규모의 다양한 데이터셋을 제공하여 다국어 ST 연구를 촉진한다.
- 저자원 언어 쌍과 다대일/다대다 ST 작업 연구를 가능하게 한다.
- 향후 연구를 벤치마크하기 위한 ASR, MT, ST(모노링구얼, 바이링구얼, 다중언어) 기준선을 제공한다.
제안 방법
- CoVoST를 21개 언어에서 영어로, 15개 언어에서 영어로 확장하여 총 지속시간을 2880시간으로 늘리고 발화자 수를 78K로 증가시킨다.
- 전문 번역가를 통해 번역을 수집하고 언어 모델 perplexity, LASER 점수, 길이 비율 휴리스틱을 사용한 품질 검사를 수행한다.
- ASR 및 ST를 위한 인코더–디코더 트랜스포머 아키텍처를 사용하며, 12개의 인코더 층과 6개의 디코더 층을 적용한다; 음성 입력에 대해 3/4 다운샘플러를 적용하고 다중 언어 디코딩을 위한 대상 언어 ID 토큰을 사용한다.
- 이중언어 MT와 세 가지 ST 기준선(C-ST, 영문으로부터 처음 학습한 E-ST, 영어 ASR에서 사전학습한 E-ST)을 제공하고, 인코더/디코더를 공유하는 다중언어 변형을 제시한다.
- 다국어 사전학습으로 다국어 학습 속도를 높이기 위해 영어 ASR에서 비영어권 ASR 및 이중언어 ST 인코더를 사전학습한다.
실험 결과
연구 질문
- RQ1CoVoST 2가 언어 커버리지, 데이터 양, 화자 다양성 측면에서 다중 언어 ST 데이터를 어떻게 확장하는가?
- RQ2영어로의 21개 언어 및 영어로부터의 15개 언어에 대해 ASR, MT, ST에 대해 어떤 모형(모노링구얼/바이링구얼/다중언어)의 기준선이 달성 가능한가?
- RQ3다중 언어 모델이 저자원 방향에서 ST 성능을 개선하는가, 역방향 방향의 데이터가 성능에 어떤 영향을 주는가(예: +Rev 실험)?
주요 결과
- CoVoST 2는 21개 언어를 영어로, 15개 언어를 영어로 포함하며 CC0 하에서 2880시간의 음성과 78K 발화자를 제공합니다.
- 기준선 결과는 언어 자원 수준에 따라 성능이 달라지며, 저자원 방향은 역방향 방향의 데이터 및 다중 언어 학습의 혜택을 받습니다.
- 다중 언어 모델링은 저자원 ST 성능 향상을 위한 유망한 방향이며, 다양한 A2E, E2A, A2A 구성이 검토되었습니다.
- 논문은 모듈형 ST 및 엔드-투-엔드 ST 변형을 포함한 광범위한 ASR, MT, ST 기준선을 보고하며, 종종 인코더의 다중언어 사전학습을 활용합니다.
- 모든 데이터와 학습 레시피가 자유롭게 공개되어 추가 연구를 촉진합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.