Skip to main content
QUICK REVIEW

[논문 리뷰] YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English Parallel Corpus

David Uthus, Garrett Tanzer|arXiv (Cornell University)|2023. 06. 27.
Hand Gesture Recognition Systems인용 수 9
한 줄 요약

YouTube-ASL를 도입하고 YouTube에서 채굴한 대규모 개방 도메인 ASL-영어 병렬 말뭉치를 제시하며 How2Sign에서 제로샷 결과로 최첨단 ASL-영어 번역을 보여준다.

ABSTRACT

Machine learning for sign languages is bottlenecked by data. In this paper, we present YouTube-ASL, a large-scale, open-domain corpus of American Sign Language (ASL) videos and accompanying English captions drawn from YouTube. With ~1000 hours of videos and >2500 unique signers, YouTube-ASL is ~3x as large and has ~10x as many unique signers as the largest prior ASL dataset. We train baseline models for ASL to English translation on YouTube-ASL and evaluate them on How2Sign, where we achieve a new finetuned state of the art of 12.39 BLEU and, for the first time, report zero-shot results.

연구 동기 및 목표

  • 웹 데이터에서 크고 다양한 ASL-영어 병렬 말뭉치를 생성하여 수화 ML의 데이터 병목 현상을 해결한다.
  • 자동 태깅과 인간 선별을 이용한 개방 도메인 마이닝이 높은 품질의 ASL 자막과 화자 다양성을 제공한다는 것을 보여준다.
  • 베이스라인 ASL-영어 번역 결과를 제공하여 벤치마크를 설정하고 제로샷 역량을 입증한다.

제안 방법

  • 두 단계 데이터 수집: ASL을 포함할 가능성이 높은 YouTube 비디오에 대한 자동 태깅과 자막 정합성 및 품질에 대한 인간 선별.
  • 전처리는 MediaPipe Holistic 랜드마크(손, 얼굴, 제한된 포즈)를 입력 특징으로 사용; 85개 선택된 랜드마크가 정규화되고 255차원 시퀀스로 다운샘플링된다.
  • T5 인코더-디코더 아키텍처를 기반으로 한 트랜스포머 계열의 베이스라인 모델; 입력 특징은 인코더로의 랜드마크 임베딩이며, 256 프레임 컨텍스트 윈도우와 128 프레임 디코더 윈도우를 사용한다.
  • 훈련 방식은 How2Sign(H2S)만으로의 학습, YouTube-ASL(YT-ASL)만으로의 학습(How2Sign에서 제로샷), 혼합 데이터(YT-ASL + H2S), 그리고 YouTube-ASL을 먼저 학습한 뒤 How2Sign으로 파인튜닝하는 방식이 포함된다.
  • 평가는 How2Sign에서 BLEU와 BLEURT를 사용하고 빔 서치(폭=5); 제로샷 및 파인튜닝 성능이 보고된다.

실험 결과

연구 질문

  • RQ1YouTube에서 채굴된 대규모 개방 도메인 ASL-영어 코퍼스가 ASL-영어 번역 벤치마크를 개선할 수 있는가?
  • RQ2영어 텍스트에 대한 사전 학습의 영향과 YouTube-ASL 데이터를 How2Sign 데이터와 혼합하는 것이 번역 품질에 미치는 영향은 무엇인가?
  • RQ3YouTube-ASL 데이터를 사용할 때 How2Sign에서의 제로샷 성능은 파인튜닝 성능과 어떻게 비교되는가?
  • RQ4YouTube-ASL 데이터셋은 규모와 화자 다양성 측면에서 기존 ASL 데이터셋에 비해 향상을 제공하는가?

주요 결과

ApproachTraining ScheduleBLEU-1BLEU-2BLEU-3BLEUBLEURT
Álvarez et al. [3]H2S17.407.693.972.21-
GloFE-VN [25]H2S14.947.273.932.2431.65
Tarrés et al. [40]H2S34.0119.3012.188.03-
OursYT-ASL14.535.472.611.4129.55
(no pretraining)YT-ASL + H2S28.6014.568.685.6037.72
YT-ASL -> H2S28.3815.419.556.2639.40
H2S14.965.112.261.2229.98
OursYT-ASL20.9310.356.143.9534.98
(pretrained)YT-ASL + H2S36.3523.0016.1311.8944.78
YT-ASL -> H2S37.8224.1316.9212.3946.63
  • YouTube-ASL은 11,093개의 ASL 비디오, 약 984시간, 610,193개의 영어 자막(총 813시간의 자막) 및 2519개 이상의 채널을 화자 대리로 보유한다.
  • How2Sign에서 파인튜닝한 최첨단 성능: 12.39 BLEU로, 기존 SOTA 8.03 BLEU를 능가한다.
  • 제로샷 BLEU 3.95로 비평형 도메인 외 번역 능력이 의미 있게 입증된다.
  • YT-ASL 단독 학습기준의 베이스라인은 점수가 낮고, 영어 텍스트 사전학습과 How2Sign으로의 파인튜닝이 성능을 크게 향상시킨다.
  • YT-ASL과 How2Sign 데이터를 섞고 그 후 파인튜닝하는 것이 최상의 결과를 낳으며(36.35 BLEU1, 23.00 BLEU2, 16.13 BLEU3, 11.89 BLEURT; 파인튜닝 시 12.39 BLEU),
  • YouTube-ASL는 상당한 화자 다양성과 실제 세계 도메인 커버리지를 제공하지만 배치 가능한 품질로의 배치 번역은 여전히 개선이 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.