QUICK REVIEW

[論文レビュー] Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation

Ryan Wong, Necati Cihan Camgöz|arXiv (Cornell University)|May 7, 2024

Hand Gesture Recognition Systems被引用数 5

ひとこと要約

Sign2GPTは凍結された視覚モデルと言語モデルを軽量アダプタと疑似グロス事前学習戦略と組み合わせ、グロスなしの手話翻訳を実現し、Phoenix14TとCSL-Dailyで従来のグロスなし手法を上回る。

ABSTRACT

Automatic Sign Language Translation requires the integration of both computer vision and natural language processing to effectively bridge the communication gap between sign and spoken languages. However, the deficiency in large-scale training data to support sign language translation means we need to leverage resources from spoken language. We introduce, Sign2GPT, a novel framework for sign language translation that utilizes large-scale pretrained vision and language models via lightweight adapters for gloss-free sign language translation. The lightweight adapters are crucial for sign language translation, due to the constraints imposed by limited dataset sizes and the computational requirements when training with long sign videos. We also propose a novel pretraining strategy that directs our encoder to learn sign representations from automatically extracted pseudo-glosses without requiring gloss order information or annotations. We evaluate our approach on two public benchmark sign language translation datasets, namely RWTH-PHOENIX-Weather 2014T and CSL-Daily, and improve on state-of-the-art gloss-free translation performance with a significant margin.

研究の動機と目的

低資源環境におけるグロスなし手話翻訳の課題に取り組む。
大規模な事前学習済み視覚・言語モデルをアダプターを介して活用し、巨大モデルの微調整を回避する。
グロス注釈なしで手話エンコーダを初期化するための疑似グロスベースの事前学習戦略を開発する。
手話ビデオから話し言葉/書記言語へのエンドツーエンドの動画→テキスト翻訳を実現する。
公開ベンチマーク（Phoenix14TとCSL-Daily）で最先端の性能を示す。

提案手法

メモリ効率の高い微調整を実現するため、凍結されたビジョンバックボーン（Dino-V2 ViT）とLoRAアダプターを採用する。
時空間トランスフォーマを手話エンコーダとして用い、時系列ダウンサンプリングと局所自己注意を用いる。
ゼロゲート付きクロスアテンションとLoRAを用いた、凍結済みXGLM GPTデコーダを用いてモダリティ間融合を行う。
線形層を介して手話エンコーダの出力をデコーダ次元に写像し、ゲート付きクロスアテンションで融合する。
高速テキスト埋め込みから初期化されたプロトタイプに手話特徴を整列させることで疑似グロス監視を用いて手話エンコーダを事前学習し、余弦類似度と温度スケーリングソフトマックスを用いて疑似グロスを局在化する。
下流タスクをクロスエントロピーロスとラベルスムージングで学習する；推論時にはビーム探索を使用する。

実験結果

リサーチクエスチョン

RQ1凍結された大規模な事前学習済み視覚・言語モデルを適応させ、軽量な手話エンコーダのみを適応させることで、グロスなしの手話翻訳は効果的に実現できるか。
RQ2疑似グロス事前学習戦略は、グロス注釈やグロス順序情報がなくても意味のある手話表現を提供するか。
RQ3アダプターに基づく微調整と局所的注意は、長い手話ビデオの翻訳品質をどの程度改善するか。
RQ4Sign2GPTは既存のグロスなしSLT手法と比較して標準的なグロスなしSLTベンチマークでどの程度性能を発揮するか。
RQ5時間的ダウンサンプリングと正弦波位置エンコーディングは翻訳性能にどのような影響を与えるか。

主な発見

疑似グロス事前学習を用いたSign2GPTは、Phoenix14TでのBLEU-4が約1.1ポイント、CSL-Dailyで約4.4ポイント向上するなど、従来のグロスなしSLT手法より顕著に改善した。
事前学習なしのグロスなし結果も従来のグロスなし手法と競合しており、グロスベースのSLTとの差を縮めている。
事前学習の恩恵は、疑似グロスを介して単語レベルの手話表現を学習することにあり、凍結された視覚・言語モデルの有効活用を可能にする。
時間的ダウンサンプリングと局所的注意は、メモリ要件を抑えつつ性能の大幅な低下を招くことなく効率を向上させる。
疑似グロス事前学習を用いると正弦波位置埋め込みがBLEU-4を大幅に高める。
本アプローチはパラメータ効率が有利で、学習可能なパラメータの大半は手話エンコーダに集中する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。