QUICK REVIEW

[論文レビュー] MotionLLM: Understanding Human Behaviors from Human Motions and Videos

Ling-Hao Chen, Shunlin Lu|arXiv (Cornell University)|May 30, 2024

Human Pose and Action Recognition被引用数 5

ひとこと要約

MotionLLMは、人間の行動、キャプション、推論を理解するために動作と動画のモダリティを統合するLLMを用い、共同の動作-動画指示調整セットで訓練され、専用のMoVid-Benchで評価される。

ABSTRACT

This study delves into the realm of multi-modality (i.e., video and motion modalities) human behavior understanding by leveraging the powerful capabilities of Large Language Models (LLMs). Diverging from recent LLMs designed for video-only or motion-only understanding, we argue that understanding human behavior necessitates joint modeling from both videos and motion sequences (e.g., SMPL sequences) to capture nuanced body part dynamics and semantics effectively. In light of this, we present MotionLLM, a straightforward yet effective framework for human motion understanding, captioning, and reasoning. Specifically, MotionLLM adopts a unified video-motion training strategy that leverages the complementary advantages of existing coarse video-text data and fine-grained motion-text data to glean rich spatial-temporal insights. Furthermore, we collect a substantial dataset, MoVid, comprising diverse videos, motions, captions, and instructions. Additionally, we propose the MoVid-Bench, with carefully manual annotations, for better evaluation of human behavior understanding on video and motion. Extensive experiments show the superiority of MotionLLM in the caption, spatial-temporal comprehension, and reasoning ability.

研究の動機と目的

動作と動画データの共同モデリングを動機づけ、人体のダイナミクスと意味論を捕捉して人間の行動理解を深める。
視覚入力（動作と動画）をLLMの推論のための語彙空間へ翻訳する二段階トレーニングフレームワークを提案。
MoVidを創設し、動作キャプション、動画キャプション、指示調整データを含む、全体的な時空学習を可能にするデータセットを作成。
MoVid-Benchを導入し、連続的なダイナミクス、身体部位のセマンティクス、方向認識、推論、ロバスト性を評価。
MotionLLMが動画のみまたは動作のみのベースラインより、キャプショニング、時空理解、推論を改善することを示す。

提案手法

動作と動画のモダリティギャップを橋渡しするための個別の視覚言語翻訳機（V-L翻訳機）を用いて、モダリティを語彙空間へ統合。
Stage 1で、エンコーダとLLMを凍結したまま動作キャプションと動画キャプションデータでV-L翻訳機を訓練。
Stage 2で、パラメータ効率的な方法（LoRA）で指示調整データを用いてLLMと翻訳機をファインチューニング。
MoVidをH3D、Motion-X、GPT-4V生成キャプションおよびQA様式の指示で構築し、多タスク学習を支援。
MoVid-Benchを、動作と動画の五つの側面（Body, Seq, Dir, Rea, Hall）に対するQAスタイルの評価を手動で注釈付けして作成する。

実験結果

リサーチクエスチョン

RQ1共同の動作と動画データをどのように共通の語彙空間にマッピングし、LLM推論を活用して人間の行動理解を高められるか？
RQ2細分化された動作情報を統合することが動画ベースの理解に与える影響と、その逆はどうか？
RQ3 unified motion-video instruction-tuningアプローチは、動作または動画のみのベースラインと比較して、キャプショニング、時空理解、および推論を改善できるか？
RQ4 MoVidデータセットと MoVid-Benchベンチマークは、連続的ダイナミクス、身体部位のセマンティクス、方向認識、推論、および幻覚耐性の評価をどう支援するか？

主な発見

MotionLLMはMoVid-Bench上でMotionGPTやVideo-LLaVAなどのベースラインよりも動作と動画理解を改善する。
細粒度の動作情報を統合すると動画ベースの理解が改善され、動画の視覚情報の手掛かりが動作ベースの理解を向上させる。
MotionLLMはBABEL-QAおよびMVBench風の評価で競争力のある結果を達成し、オープンボキャブラリ出力を用いた強力な時空・推論能力を示す。
ActivityNet-QAのゼロショット動画QAは、MotionLLMが主要モデルを顕著な差で上回ることを示す。
定性的結果は、MotionLLMが動作と動画からのキャプション作成、時空推論、意図推定を行える能力を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。