[论文解读] A Review of Multimodal Explainable Artificial Intelligence: Past, Present and Future
本文对 Multimodal Explainable AI (MXAI) 进行历史性、四个时代的分析,涵盖传统 ML、深度学习、判别式基础模型和生成型 LLMs,详细介绍数据、模型以及事后可解释性方法、数据集和评估方向。
Artificial intelligence (AI) has rapidly developed through advancements in computational power and the growth of massive datasets. However, this progress has also heightened challenges in interpreting the "black-box" nature of AI models. To address these concerns, eXplainable AI (XAI) has emerged with a focus on transparency and interpretability to enhance human understanding and trust in AI decision-making processes. In the context of multimodal data fusion and complex reasoning scenarios, the proposal of Multimodal eXplainable AI (MXAI) integrates multiple modalities for prediction and explanation tasks. Meanwhile, the advent of Large Language Models (LLMs) has led to remarkable breakthroughs in natural language processing, yet their complexity has further exacerbated the issue of MXAI. To gain key insights into the development of MXAI methods and provide crucial guidance for building more transparent, fair, and trustworthy AI systems, we review the MXAI methods from a historical perspective and categorize them across four eras: traditional machine learning, deep learning, discriminative foundation models, and generative LLMs. We also review evaluation metrics and datasets used in MXAI research, concluding with a discussion of future challenges and directions. A project related to this review has been created at https://github.com/ShilinSun/mxai_review.
研究动机与目标
- 提供从传统 ML 到生成型 LLMs 的 MXAI 发展历史视角。
- 将 MXAI 方法按数据可解释性、模型可解释性和事后可解释性在四个时代进行分类。
- 总结 MXAI 研究中使用的数据集和评估指标。
- 讨论面向透明、公平的 MXAI 系统的未来挑战与发展方向。
提出的方法
- 按时代对 MXAI 方法进行分类:传统 ML、深度学习、判别式基础模型、生成型 LLMs。
- 在每个时代,将方法分为数据可解释性、模型可解释性和事后可解释性。
- 评述典型模型、技术(例如注意力可视化、特征归因、因果解释)和数据集。
- 总结评估指标并讨论 MXAI 的挑战与未来方向。
实验结果
研究问题
- RQ1在 AI 的四个历史时代中,MXAI 方法如何发展演变?
- RQ2每个 MXAI 时代有哪些数据、模型和事后可解释性技术来界定?
- RQ3MXAI 研究中常用哪些数据集和评估指标,并对 MXAI 给出哪些未来发展方向?
- RQ4LLMs 与多模态融合的进展如何影响 MXAI 的解释和可信度?
主要发现
- MXAI 被划分为四个时代:传统 ML (2000-2009)、深度学习 (2010-2016)、判别式基础模型 (2017-2021) 和生成型 LLMs (2022-2024)。
- 每个时代通过数据可解释性、模型可解释性和事后可解释性进行分析。
- 基于 Transformer 的模型和 LLMs 驱动了新的 MXAI 挑战与多模态解释与公平性的机会。
- 该综述突出了以往分析在历史发展和 LLM/MXAI 可解释性整合方面的空白,提供了系统性的视角和未来方向。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。