[論文レビュー] Explainability for Vision Foundation Models: A Survey
この総説は、ビジョン基盤モデル(PFMs)と説明可能AI(XAI)の交差領域を整理し、122件の論文を取りまとめ、方法を内在的に説明可能なものとポストホックなアプローチに分類し、評価実践と将来の課題を概説する。
As artificial intelligence systems become increasingly integrated into daily life, the field of explainability has gained significant attention. This trend is particularly driven by the complexity of modern AI models and their decision-making processes. The advent of foundation models, characterized by their extensive generalization capabilities and emergent uses, has further complicated this landscape. Foundation models occupy an ambiguous position in the explainability domain: their complexity makes them inherently challenging to interpret, yet they are increasingly leveraged as tools to construct explainable models. In this survey, we explore the intersection of foundation models and eXplainable AI (XAI) in the vision domain. We begin by compiling a comprehensive corpus of papers that bridge these fields. Next, we categorize these works based on their architectural characteristics. We then discuss the challenges faced by current research in integrating XAI within foundation models. Furthermore, we review common evaluation methodologies for these combined approaches. Finally, we present key observations and insights from our survey, offering directions for future research in this rapidly evolving field.
研究の動機と目的
- ビジョン基盤モデルがコンピュータビジョンにおけるXAIを実現するためにどのように用いられているかを要約する。
- PFMsを文脈として前提としたXAI手法をカタログ化・分類する。
- PFMsのビジョン分野における説明がどのように生成・格納・評価されるかを評価する。
- PFMsとXAIを統合する際のギャップ、課題、将来の研究方向を特定する。
提案手法
- XAIとPFMsを架橋するビジョン分野の研究122件のコーパスを作成する。
- PFMsの文脈に基づくXAI手法の分類を提供する。
- 二つの主要カテゴリ(内在的に説明可能なモデルとポストホック法)を区別する。
- 説明の評価方法とその限界を論じる。
- PFMsとXAIの統合における課題と今後の研究課題を強調する。
実験結果
リサーチクエスチョン
- RQ1ビジョンPFMsは、内在的に説明可能かポストホックか、どのようにXAI手法を可能にするのか。
- RQ2PFMsを用いて生成された説明の評価方法にはどのような主流手法があるか。
- RQ3PFMsとXAIの交差領域に存在する課題と未解決の問題は何か。
- RQ4ビジョンPFMsとXAIを進展させるために将来示唆される方向性は何か。
主な発見
- XAIと基盤モデルのビジョン分野を結ぶ122件の研究の包括的コーパスを作成。
- 分類は内在的に説明可能なモデルとポストホックな説明の二つの主要カテゴリに整理され、サブタイプの詳細な内訳を提供。
- PFMsは意味ある概念を埋め込み、マルチモーダル機能(例:CLIP、Grounding DINO)を活用して説明を可能にする。
- 評価動向には質的・量的指標の両方が含まれ、データセット固有のベンチマークとメタ説明に大きく依存する。
- 総説は核となる課題と未解決の問いを特定し、ビジョンPFMsとXAIの統合に向けた将来の研究方向を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。