[論文レビュー] GPT-4o: Visual perception performance of multimodal large language models in piglet activity understanding
本論文は、 close-up および full-shot 動画を用いて、 piglet activity understanding に対する four multimodal LLMs (Video-LLaMA, MiniGPT4-Video, Video-Chat2, GPT-4o) を評価し、 counting、actor referring、semantic correspondence、time perception、robustness に焦点を当て、特に time perception と robustness で GPT-4o が全体的に最も強い性能を示している。
Animal ethology is an crucial aspect of animal research, and animal behavior labeling is the foundation for studying animal behavior. This process typically involves labeling video clips with behavioral semantic tags, a task that is complex, subjective, and multimodal. With the rapid development of multimodal large language models(LLMs), new application have emerged for animal behavior understanding tasks in livestock scenarios. This study evaluates the visual perception capabilities of multimodal LLMs in animal activity recognition. To achieve this, we created piglet test data comprising close-up video clips of individual piglets and annotated full-shot video clips. These data were used to assess the performance of four multimodal LLMs-Video-LLaMA, MiniGPT4-Video, Video-Chat2, and GPT-4 omni (GPT-4o)-in piglet activity understanding. Through comprehensive evaluation across five dimensions, including counting, actor referring, semantic correspondence, time perception, and robustness, we found that while current multimodal LLMs require improvement in semantic correspondence and time perception, they have initially demonstrated visual perception capabilities for animal activity recognition. Notably, GPT-4o showed outstanding performance, with Video-Chat2 and GPT-4o exhibiting significantly better semantic correspondence and time perception in close-up video clips compared to full-shot clips. The initial evaluation experiments in this study validate the potential of multimodal large language models in livestock scene video understanding and provide new directions and references for future research on animal behavior video understanding. Furthermore, by deeply exploring the influence of visual prompts on multimodal large language models, we expect to enhance the accuracy and efficiency of animal behavior recognition in livestock scenarios through human visual processing methods.
研究の動機と目的
- 現在の multimodal LLM が家畜動画データにおける piglet activity understanding にどのように適用されるかを調査する。
- counting、actor identification、semantic understanding、temporal perception、robustness を含む複数の視覚知覚次元でモデルを比較する。
- 視覚的プロンプティング(close-up 対 full-shot with marks)がおよびモデルの性能に与える影響を評価する。
- multimodal LLM を用いた家畜シーン理解のためのプロンプトと評価フレームワークに関する指針を提供する。
提案手法
- close-up および full-shot クリップと注釈された行動(立つ、横になる、餌やり、飲水、動く、社交する)を含む piglet のビデオデータセットを構築する。
- DEVA 法を用いて 1 分間の区間で個々のブタを追跡し、一貫した actor labeling を確保する。
- モデルを探るために、close-up にはテキストのみ、full-shot with marks にはテキスト + 視覚的手掛かりの2種類の視覚プロンプトテンプレートを開発する。
- 4つの multimodal LLM(Video-LLaMA 7B、MiniGPT4-Video、Video-Chat2、GPT-4o)を、各ビデオクリップごとに正規化された 0–5 点スケールで5指標のもと評価する。
- 5 指標を定義する:counting、actor referring、semantic correspondence、time perception、robustness、モデル出力からのスコア算出ルールを設定する。
実験結果
リサーチクエスチョン
- RQ1最先端の multimodal LLM は、close-up と full-shot の両方のビデオ設定における piglet activity understanding でどう機能するか。
- RQ2どの側面(counting、actor referring、semantic correspondence、time perception、robustness)が家畜シーン理解における現在のモデルを制限しているか。
- RQ3視覚的プロンプティング(close-up 対 full-shot with marks)は、特定された指標全体でモデルの性能に影響を与えるか。
- RQ4試験対象のモデルの中で、piglet の行動タスクにおいて最も強い時間理解とロバスト性を示したのはどれか。
主な発見
- GPT-4o は一般に複数の指標で他のモデルを上回り、特に full-shot クリップにおける time perception と robustness で優れている。
- Video-Chat2 と GPT-4o は、他モデルと比較して close-up クリップでの semantic correspondence と time perception がより強い。
- 4モデルすべてが semantic correspondence に苦戦しており、ビデオデータから piglet の行動を解釈する改善余地を示している。
- close-up 動画は、scene cues を含む full-shot 動画よりも multimodal LLMs における動画理解タスクで良い結果を生む傾向がある。
- Counting の性能は多くのモデルで低いが、GPT-4o が test されたモデルの中で full-shot データで最大の改善を示した。
- 全体として、multimodal LLM は家畜の活動理解に対する初期の視覚認識能力を持つが、専門的な家畜シーンタスクにはさらなる最適化が必要である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。