[論文レビュー] LLMs for Explainable AI: A Comprehensive Survey
LLMs がポストホックの説明、内在的解釈性、そして人間中心の語りを通じて Explainable AI (XAI) を強化する方法の包括的な調査、評価方法と実世界の応用を含む。
Large Language Models (LLMs) offer a promising approach to enhancing Explainable AI (XAI) by transforming complex machine learning outputs into easy-to-understand narratives, making model predictions more accessible to users, and helping bridge the gap between sophisticated model behavior and human interpretability. AI models, such as state-of-the-art neural networks and deep learning models, are often seen as "black boxes" due to a lack of transparency. As users cannot fully understand how the models reach conclusions, users have difficulty trusting decisions from AI models, which leads to less effective decision-making processes, reduced accountabilities, and unclear potential biases. A challenge arises in developing explainable AI (XAI) models to gain users' trust and provide insights into how models generate their outputs. With the development of Large Language Models, we want to explore the possibilities of using human language-based models, LLMs, for model explainabilities. This survey provides a comprehensive overview of existing approaches regarding LLMs for XAI, and evaluation techniques for LLM-generated explanation, discusses the corresponding challenges and limitations, and examines real-world applications. Finally, we discuss future directions by emphasizing the need for more interpretable, automated, user-centric, and multidisciplinary approaches for XAI via LLMs.
研究の動機と目的
- 高リスク領域における Explainable AI の必要性を喚起し、複雑なモデルとユーザーの解釈可能性のギャップを埋める。
- ポストホック、内在的解釈性、そして人間中心の方法を横断して LLM ベースの XAI アプローチを集約・分類する。
- 評価戦略、ベンチマーク、実世界の応用を論じ、LLM が生成する説明を評価・改善する。
提案手法
- 説明可能性技術を三つのカテゴリー(ポストホック・説明、内在的解釈性、人間中心の説明)に分類する。
- 代表的な手法(例:LIME、SHAP、Integrated Gradients;Chain of Thought; Guided CoT テンプレート; ReAct)と、それらが XAI のための LLM にどう適用されるかを説明する。
- 定性的指標(理解可能性、可制御性)と定量的指標(忠実性、妥当性)の評価フレームワークを概説する。
- 訓練・評価のためのベンチマークデータセット(e-SNLI、CoS-E、ECQA、WorldTree、OpenBookQA with Explanations など)を論じる。
- プライバシー、社会的配慮、信頼できる解釈可能な LLM 連携 AI システムの構築に向けた課題と将来の方向性をレビューする。
実験結果
リサーチクエスチョン
- RQ1LLMを用いた explainability を実現する主なアプローチ(ポストホック、内在的、人間中心)は何で、それらはどのように異なるのか。
- RQ2LLMs が説明を生成・評価し、分野を超えて忠実性・妥当性・理解可能性を保つ方法は。
- RQ3説明の訓練・評価を支えるデータセットとベンチマークは何で、それらの長所と限界は。
- RQ4現実世界の応用で LLM ベースの XAI を展開する際の主な課題と今後の方向性は。
主な発見
- LLMs は三つの補完的なモードで説明を提供できる:ポストホック、内在的、そして人間中心の語り。
- 説明の評価には定性的(理解可能性、可制御性)と定量的(忠実性、妥当性)の指標の双方が必要である。
- e-SNLI、CoS-E、ECQA、WorldTree、OpenBookQA with Explanations などのベンチマークデータセットは LLM の説明の訓練と評価を支援する。
- Chain of Thought や ReAct のような内在的手法は、推論を段階的に行い、タスク指向の行動を促進して解釈可能性を高める。
- 人間中心の設計原則—説明ワークフローにユーザーを関与させること—は AI 説明の透明性と信頼を高める。
- 調査は、プライバシー、システムの複雑さ、領域適応、説明品質と事実性の間の緊張といった課題を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。