QUICK REVIEW

[論文レビュー] YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English Parallel Corpus

David Uthus, Garrett Tanzer|arXiv (Cornell University)|Jun 27, 2023

Hand Gesture Recognition Systems被引用数 9

ひとこと要約

YouTube-ASL を導入し、YouTube から抽出された大規模なオープンドメインの ASL-英語並列コーパスを作成し、How2Sign で zero-shot の結果を用いた ASL から英語への翻訳で最先端を示します。

ABSTRACT

Machine learning for sign languages is bottlenecked by data. In this paper, we present YouTube-ASL, a large-scale, open-domain corpus of American Sign Language (ASL) videos and accompanying English captions drawn from YouTube. With ~1000 hours of videos and >2500 unique signers, YouTube-ASL is ~3x as large and has ~10x as many unique signers as the largest prior ASL dataset. We train baseline models for ASL to English translation on YouTube-ASL and evaluate them on How2Sign, where we achieve a new finetuned state of the art of 12.39 BLEU and, for the first time, report zero-shot results.

研究の動機と目的

ウェブデータから大規模で多様な ASL-英語並列コーパスを作成することによって、手話 ML のデータボトルネックを解決する。
オープンドメインのマイニングに自動タグ付けと人間によるフィルタリングを組み合わせることで、高品質な ASL キャプションと話者多様性を得られることを示す。
ベンチマークを確立し、ゼロショットの能力を実証するための、基準となる ASL-英語翻訳結果を提供する。

提案手法

ASL を含む動画を自動的にタグ付けするフェーズと、キャプションの整合性と品質を人間がフィルタリングする二段階データ収集。
前処理は MediaPipe Holistic のランドマーク（手、顔、限られたポーズ）を入力特徴として使用。選択された 85 個のランドマークを正規化し、フィールドをダウンサンプリングして 255 次元のシーケンスを作成。
エンコード-デコーダーの T5 アーキテクチャに基づく Transformer ベースのベースラインモデル。入力特徴はエンコーダーへのランドマーク埋め込み、256 フレームのコンテキストウィンドウと 128 フレームのデコーダーウィンドウを使用。
学習スキームには次が含まれる：How2Sign (H2S) のみからの学習、YouTube-ASL (YT-ASL) のみでの学習（How2Sign でのゼロショット）、混合データ（YT-ASL + H2S）、YT-ASL を用いてその後 How2Sign でファインチューニング。
評価は How2Sign 上で BLEU および BLEURT を用い、ビーム探索（幅=5）を適用；ゼロショットとファインチューニング済みの性能を報告する。

実験結果

リサーチクエスチョン

RQ1YouTube からマイニングした大規模でオープンドメインの ASL-英語コーパスは ASL-英語翻訳のベンチマークを改善できるか？
RQ2英語テキストの事前学習と YouTube-ASL データを How2Sign データと混合することが翻訳品質にどのような影響を与えるか？
RQ3YouTube-ASL データを使用した場合、How2Sign でのゼロショット性能とファインチューニング後の性能はどう比較されるか？
RQ4YouTube-ASL データセットは規模と話者の多様性の点で、従来の ASL データセットより改善を提供するか？

主な発見

アプローチ	学習スケジュール	BLEU-1	BLEU-2	BLEU-3	BLEU	BLEURT
Álvarez et al. [3]	H2S	17.40	7.69	3.97	2.21	-
GloFE-VN [25]	H2S	14.94	7.27	3.93	2.24	31.65
Tarrés et al. [40]	H2S	34.01	19.30	12.18	8.03	-
Ours	YT-ASL	14.53	5.47	2.61	1.41	29.55
(no pretraining)	YT-ASL + H2S	28.60	14.56	8.68	5.60	37.72
	YT-ASL -> H2S	28.38	15.41	9.55	6.26	39.40
H2S		14.96	5.11	2.26	1.22	29.98
Ours	YT-ASL	20.93	10.35	6.14	3.95	34.98
(pretrained)	YT-ASL + H2S	36.35	23.00	16.13	11.89	44.78
	YT-ASL -> H2S	37.82	24.13	16.92	12.39	46.63

YouTube-ASL は 11,093 本の ASL 動画、約 984 時間、610,193 の英語キャプション（合計 813 時間のキャプション）と 2519+ チャンネルを話者プロキシとして含む。
How2Sign でファインチューニングされた最先端の結果：12.39 BLEU、従来の SOTA 8.03 BLEU を上回る。
ゼロショット BLEU が 3.95 で、外部ドメイン翻訳能力を非自明に示す。
YT-ASL 単独での学習ではスコアは低く出るが、英語テキストでの事前学習と How2Sign でのファインチューニングにより性能が大幅に向上する。
YT-ASL を How2Sign データと混ぜてその後ファインチューニングすると最良の結果を得る（36.35 BLEU1、23.00 BLEU2、16.13 BLEU3、11.89 BLEURT；ファインチューニング時には全体で 12.39 BLEU）。
YouTube-ASL は話者の多様性と実世界ドメインのカバーを大幅に提供するが、展開可能な品質には依然として課題がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。