[論文レビュー] Ferret: Refer and Ground Anything Anywhere at Any Granularity
Ferret は、点、ボックス、自由形状領域を跨ぐ referring と grounding を統合するマルチモーダル大規模言語モデルで、ハイブリッド領域表現と空間認識型ビジュアルサンプラーを用いています。GRIT を用いて 1.1M サンプルで訓練され、Ferret-Bench による評価では強力な性能と物体幻覚の低減が示されています。
We introduce Ferret, a new Multimodal Large Language Model (MLLM) capable of understanding spatial referring of any shape or granularity within an image and accurately grounding open-vocabulary descriptions. To unify referring and grounding in the LLM paradigm, Ferret employs a novel and powerful hybrid region representation that integrates discrete coordinates and continuous features jointly to represent a region in the image. To extract the continuous features of versatile regions, we propose a spatial-aware visual sampler, adept at handling varying sparsity across different shapes. Consequently, Ferret can accept diverse region inputs, such as points, bounding boxes, and free-form shapes. To bolster the desired capability of Ferret, we curate GRIT, a comprehensive refer-and-ground instruction tuning dataset including 1.1M samples that contain rich hierarchical spatial knowledge, with 95K hard negative data to promote model robustness. The resulting model not only achieves superior performance in classical referring and grounding tasks, but also greatly outperforms existing MLLMs in region-based and localization-demanded multimodal chatting. Our evaluations also reveal a significantly improved capability of describing image details and a remarkable alleviation in object hallucination. Code and data will be available at https://github.com/apple/ml-ferret
研究の動機と目的
- LLMフレームワーク内で referring と grounding の統合を促進する。
- 点、ボックス、自由形状を含む多様な領域入力の正確な取り扱いを可能にする。
- 幻覚に頑健なオープンボキャブラリの指示追従型 refer-and-ground モデルを開発する。
- 頑健性のためのネガティブサンプルを含む大規模な refer-and-ground 指示チューニングデータセット(GRIT)を構築する。
- joint refer-and-ground タスクと対話ベースの grounding のための包括的なベンチマーク(Ferret-Bench)を提供する。
提案手法
- 離散化された座標と連続領域特徴を組み合わせたハイブリッド領域表現を導入する。
- 不規則な領域形状から連続特徴を抽出する空間認識型ビジュアルサンプラーを開発する。
- 領域表現を LLM ベースのモデル(LLaMA 重み上の Vicuna)に統合し、画像特徴の線形射影層を追加する。
- GRIT を編成する、 region-in/text-out、text-in/region-out、および組み合わせ形式を含む 1.1M サンプルの指示チューニングデータセットと、95k のハードネガティブを追加。
- ロバスト性とオープンボキャブラリの grounding を向上させるため、GPT 支援データ生成と空間的ネガティブ採掘を追加する。
実験結果
リサーチクエスチョン
- RQ1参照と grounding は単一のマルチモーダル LLM フレームワーク内で効果的に統合できるか?
- RQ2任意の形状の領域をどのように表現・処理して、オープンボキャブラリの referring および grounding を支援できるか?
- RQ3大規模 GRIT データセットでの指示チューニングは、マルチモーダル対話における堅牢性、 grounding 精度を向上させ、物体幻覚を低減するか?
- RQ4領域ベースのタスクと grounding-aware なマルチモーダル会話における既存の MLLMs に対する Ferret の性能はどうか?
- RQ5referring、grounding、推論を混在させる grounded dialogue シナリオ(Ferret-Bench)での Ferret の性能はどれくらいか?
主な発見
- Ferret は従来の refering/grounding ベンチマークにおいて、従来の MLLMs と比較して優れた性能を達成します。
- Ferret は領域ベースおよび局在要求のあるマルチモーダルチャットで、既存モデルを大幅に上回ります。
- Ferret は物体幻覚を低減し、画像の詳細な記述を改善します。
- Ferret は REC とフレーズ grounding ベンチマーク(例:RefCOCO/RefCOCO+/RefCOCOg および Flickr30k Entities)で強力な結果を示します。
- Ferret は点、ボックス、自由形状での参照を可能にし、多くの先行研究には欠けていた能力に対処します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。