QUICK REVIEW

[論文レビュー] GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents

Tenglong Ao, Zeyi Zhang|arXiv (Cornell University)|Mar 26, 2023

Multimodal Machine Learning Applications被引用数 8

ひとこと要約

GestureDiffuCLIPは、CLIPガイド付き潜在拡散フレームワークを用いて、共演話者ジェスチャーの多様なスタイル制御を実現。意味的正確性と高品質なジェスチャーを達成し、テキスト、映像、またはモーションのプロンプトをサポートし、ユーザ調査で最先端を上回る。

ABSTRACT

The automatic generation of stylized co-speech gestures has recently received increasing attention. Previous systems typically allow style control via predefined text labels or example motion clips, which are often not flexible enough to convey user intent accurately. In this work, we present GestureDiffuCLIP, a neural network framework for synthesizing realistic, stylized co-speech gestures with flexible style control. We leverage the power of the large-scale Contrastive-Language-Image-Pre-training (CLIP) model and present a novel CLIP-guided mechanism that extracts efficient style representations from multiple input modalities, such as a piece of text, an example motion clip, or a video. Our system learns a latent diffusion model to generate high-quality gestures and infuses the CLIP representations of style into the generator via an adaptive instance normalization (AdaIN) layer. We further devise a gesture-transcript alignment mechanism that ensures a semantically correct gesture generation based on contrastive learning. Our system can also be extended to allow fine-grained style control of individual body parts. We demonstrate an extensive set of examples showing the flexibility and generalizability of our model to a variety of style descriptions. In a user study, we show that our system outperforms the state-of-the-art approaches regarding human likeness, appropriateness, and style correctness.

研究の動機と目的

固定ラベルや単一の参考サンプル依存を超えた、共演話者ジェスチャー合成の柔軟で細粒度なスタイル制御を動機付ける。
テキスト、映像、またはモーションプロンプトからスタイルをCLIP潜在表現としてエンコードし、ジェスチャー生成器に注入する。
コントラスト学習で学習したジェスチャーとトランスクリプトの共同埋め込み空間を用いて、意味的整合性を確保する。
事前学習済みのマルチモーダルモデルからの知識を蒸留して自己教師付き学習を可能にし、ラベリング要件を低減する。
個々の体の部位ごとに細粒度の制御を可能にし、オートリグレッシブ生成によるリアルタイム性の潜在力を提供する拡散モデルベースのアーキテクチャを提供する。

提案手法

音声認識とトランスクリプトからジェスチャー潜在コードを生成する潜在拡散モデルを使用する。
AdaIN層を介してCLIPベースのスタイル埋め込みをデノイジングネットワークに組み込む。
コントラスト学習で学習したジェスチャー-トランスクリプト共同埋め込み空間を訓練し、意味的整合性を強制する。
詳細なスタイルラベリングを避けるために、事前学習済みCLIPモデルからの知識を蒸留して自己教師付き学習を行う。
生成へトランスクリプト意味論を統合する意味論認識アテンション層を使用する。
テキスト、モーション、映像プロンプトの複数のCLIPエンコーダと分類器フリーガイダンスで訓練する。

実験結果

リサーチクエスチョン

RQ1拡散ベースの生成器で、テキスト、映像、モーションのいずれかの多模態スタイルプロンプトをどのように用いて共演話者ジェスチャーのスタイルを制御できるか。
RQ2CLIP潜在表現をジェスチャー拡散モデルに効果的に組み込み、意味的に正確で視覚的に現実的なジェスチャーを生成できるか。
RQ3ジェスチャー-トランスクリプト共同埋め込みを学習すると、生成時の音声とジェスチャーの意味的整合性が改善されるか。
RQ4 pretrainedマルチモーダルモデルからの自己教師付き学習は、詳細なスタイルラベルの必要性を減らしつつ品質と制御性を維持できるか。
RQ5この枠組みで細粒度スタイル制御（部位ごとを含む）を実現可能か。

主な発見

システムは、テキスト、映像、またはモーションの多模態プロンプトに guided された高品質で意味的に正確な共演話者ジェスチャーを生成する。
AdaINベースのCLIPガイダンスを備えた潜在拡散モデルにより、モダリティ間で柔軟なスタイル制御を実現する。
コントラスト学習で訓練されたジェスチャー-トランスクリプト共同埋め込みは、音声とジェスチャーの意味的対応を改善する。
自己教師付き学習は、 pretrained CLIPモデルからの知識を蒸留して、ラベル付きスタイルデータへの依存を低減する。
ユーザ調査により、GestureDiffuCLIPが人間らしさ、適切さ、スタイル正確さの点で最先端を上回ることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。