[论文解读] What Would You Ask the Machine Learning Model? Identification of User Needs for Model Explanations Based on Human-Model Conversations
本文提出了一种对话式AI系统dr_ant,通过收集用户针对机器学习模型预测结果的提问,识别现实世界中对模型解释的实际需求。通过对1,000多轮与泰坦尼克号生存预测模型的对话进行分析,揭示了用户提问的重复性模式,提出了一种新颖的、交互式方法来发现终端用户对解释的需求——推动XAI开发从以开发者为中心转向以人为本的设计。
Recently we see a rising number of methods in the field of eXplainable Artificial Intelligence. To our surprise, their development is driven by model developers rather than a study of needs for human end users. The analysis of needs, if done, takes the form of an A/B test rather than a study of open questions. To answer the question "What would a human operator like to ask the ML model?" we propose a conversational system explaining decisions of the predictive model. In this experiment, we developed a chatbot called dr_ant to talk about machine learning model trained to predict survival odds on Titanic. People can talk with dr_ant about different aspects of the model to understand the rationale behind its predictions. Having collected a corpus of 1000+ dialogues, we analyse the most common types of questions that users would like to ask. To our knowledge, it is the first study which uses a conversational system to collect the needs of human operators from the interactive and iterative dialogue explorations of a predictive model.
研究动机与目标
- 识别与机器学习模型交互的人类用户的真实解释需求,超越以开发者为导向的解释方法。
- 探究与机器学习模型进行开放式、交互式对话如何揭示用户对模型行为的期望和问题。
- 开发并部署一个对话式AI代理(dr_ant),使用户能够以自然语言探索和质询黑箱模型。
- 分析收集到的对话,提取重复出现的问题类型和用户寻求解释的动机,为未来XAI系统设计提供依据。
- 证明对话式交互是获取可解释AI用户需求的一种可扩展且有效的方法,尤其适用于非专家用户。
提出的方法
- 开发了一个名为dr_ant的聊天机器人,用于与用户就基于泰坦尼克号数据集训练的随机森林模型的预测结果进行交互。
- 实现了多轮对话系统,结合意图识别和实体识别,以处理用户关于乘客特征、生存预测及解释的问题。
- 整合了来自DALEX和可解释模型分析(EMA)框架的模型解释工具(如Ceteris Paribus图和Break Down图),用于生成可视化与文本化解释。
- 采用动态微调流水线:收集真实用户对话,新增意图类别,并扩展训练数据,以提升系统的鲁棒性和覆盖范围。
- 通过网页和Slack接口部署系统,在自然环境中收集了1,000多条真实用户对话。
- 应用迭代式对话管理机制,支持开放式、用户主导的对话,实现对未预见到问题的探索。
实验结果
研究问题
- RQ1当用户试图理解机器学习模型预测时,他们实际提出了哪些类型的问题?
- RQ2对话式AI系统如何有效获取并回应用户关于模型行为的多样化、开放式问题?
- RQ3关于模型解释的用户问题中,哪些重复出现的模式或主题浮现?这些模式如何因用户背景或意图而异?
- RQ4交互式、基于对话的系统能否作为发现和验证可解释AI用户需求的可扩展方法?
- RQ5不同角色(如领域专家与普通用户)的用户问题有何差异?这揭示了他们怎样的解释需求?
主要发现
- 用户最常提出的问题围绕“如果……会怎样”类情景(例如:“如果乘客更年长会怎样?”)、特征重要性以及模型公平性,特别是关于性别和年龄的问题。
- 用户频繁询问模型在特定个体上的行为表现,表明对实例级解释和反事实推理存在强烈需求。
- 大量问题聚焦于公平性与偏见,尤其是性别和年龄方面,反映出用户对歧视性结果的担忧。
- 该系统成功收集了1,000多条对话,证明对话式AI是获取XAI中用户需求的一种可行且可扩展的方法。
- 分析揭示了若干问题聚类:特征影响、预测敏感性、模型在特定案例上的行为以及公平性关切——每类均需采用定制化的解释策略。
- 对话式方法揭示了此前未预料到的用户需求,例如对模型局限性和不确定性的询问,这些在静态解释方法中常被忽略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。