[논문 리뷰] YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English Parallel Corpus
YouTube-ASL를 도입하고 YouTube에서 채굴한 대규모 개방 도메인 ASL-영어 병렬 말뭉치를 제시하며 How2Sign에서 제로샷 결과로 최첨단 ASL-영어 번역을 보여준다.
Machine learning for sign languages is bottlenecked by data. In this paper, we present YouTube-ASL, a large-scale, open-domain corpus of American Sign Language (ASL) videos and accompanying English captions drawn from YouTube. With ~1000 hours of videos and >2500 unique signers, YouTube-ASL is ~3x as large and has ~10x as many unique signers as the largest prior ASL dataset. We train baseline models for ASL to English translation on YouTube-ASL and evaluate them on How2Sign, where we achieve a new finetuned state of the art of 12.39 BLEU and, for the first time, report zero-shot results.
연구 동기 및 목표
- 웹 데이터에서 크고 다양한 ASL-영어 병렬 말뭉치를 생성하여 수화 ML의 데이터 병목 현상을 해결한다.
- 자동 태깅과 인간 선별을 이용한 개방 도메인 마이닝이 높은 품질의 ASL 자막과 화자 다양성을 제공한다는 것을 보여준다.
- 베이스라인 ASL-영어 번역 결과를 제공하여 벤치마크를 설정하고 제로샷 역량을 입증한다.
제안 방법
- 두 단계 데이터 수집: ASL을 포함할 가능성이 높은 YouTube 비디오에 대한 자동 태깅과 자막 정합성 및 품질에 대한 인간 선별.
- 전처리는 MediaPipe Holistic 랜드마크(손, 얼굴, 제한된 포즈)를 입력 특징으로 사용; 85개 선택된 랜드마크가 정규화되고 255차원 시퀀스로 다운샘플링된다.
- T5 인코더-디코더 아키텍처를 기반으로 한 트랜스포머 계열의 베이스라인 모델; 입력 특징은 인코더로의 랜드마크 임베딩이며, 256 프레임 컨텍스트 윈도우와 128 프레임 디코더 윈도우를 사용한다.
- 훈련 방식은 How2Sign(H2S)만으로의 학습, YouTube-ASL(YT-ASL)만으로의 학습(How2Sign에서 제로샷), 혼합 데이터(YT-ASL + H2S), 그리고 YouTube-ASL을 먼저 학습한 뒤 How2Sign으로 파인튜닝하는 방식이 포함된다.
- 평가는 How2Sign에서 BLEU와 BLEURT를 사용하고 빔 서치(폭=5); 제로샷 및 파인튜닝 성능이 보고된다.
실험 결과
연구 질문
- RQ1YouTube에서 채굴된 대규모 개방 도메인 ASL-영어 코퍼스가 ASL-영어 번역 벤치마크를 개선할 수 있는가?
- RQ2영어 텍스트에 대한 사전 학습의 영향과 YouTube-ASL 데이터를 How2Sign 데이터와 혼합하는 것이 번역 품질에 미치는 영향은 무엇인가?
- RQ3YouTube-ASL 데이터를 사용할 때 How2Sign에서의 제로샷 성능은 파인튜닝 성능과 어떻게 비교되는가?
- RQ4YouTube-ASL 데이터셋은 규모와 화자 다양성 측면에서 기존 ASL 데이터셋에 비해 향상을 제공하는가?
주요 결과
| Approach | Training Schedule | BLEU-1 | BLEU-2 | BLEU-3 | BLEU | BLEURT |
|---|---|---|---|---|---|---|
| Álvarez et al. [3] | H2S | 17.40 | 7.69 | 3.97 | 2.21 | - |
| GloFE-VN [25] | H2S | 14.94 | 7.27 | 3.93 | 2.24 | 31.65 |
| Tarrés et al. [40] | H2S | 34.01 | 19.30 | 12.18 | 8.03 | - |
| Ours | YT-ASL | 14.53 | 5.47 | 2.61 | 1.41 | 29.55 |
| (no pretraining) | YT-ASL + H2S | 28.60 | 14.56 | 8.68 | 5.60 | 37.72 |
| YT-ASL -> H2S | 28.38 | 15.41 | 9.55 | 6.26 | 39.40 | |
| H2S | 14.96 | 5.11 | 2.26 | 1.22 | 29.98 | |
| Ours | YT-ASL | 20.93 | 10.35 | 6.14 | 3.95 | 34.98 |
| (pretrained) | YT-ASL + H2S | 36.35 | 23.00 | 16.13 | 11.89 | 44.78 |
| YT-ASL -> H2S | 37.82 | 24.13 | 16.92 | 12.39 | 46.63 |
- YouTube-ASL은 11,093개의 ASL 비디오, 약 984시간, 610,193개의 영어 자막(총 813시간의 자막) 및 2519개 이상의 채널을 화자 대리로 보유한다.
- How2Sign에서 파인튜닝한 최첨단 성능: 12.39 BLEU로, 기존 SOTA 8.03 BLEU를 능가한다.
- 제로샷 BLEU 3.95로 비평형 도메인 외 번역 능력이 의미 있게 입증된다.
- YT-ASL 단독 학습기준의 베이스라인은 점수가 낮고, 영어 텍스트 사전학습과 How2Sign으로의 파인튜닝이 성능을 크게 향상시킨다.
- YT-ASL과 How2Sign 데이터를 섞고 그 후 파인튜닝하는 것이 최상의 결과를 낳으며(36.35 BLEU1, 23.00 BLEU2, 16.13 BLEU3, 11.89 BLEURT; 파인튜닝 시 12.39 BLEU),
- YouTube-ASL는 상당한 화자 다양성과 실제 세계 도메인 커버리지를 제공하지만 배치 가능한 품질로의 배치 번역은 여전히 개선이 필요하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.