[论文解读] It Takes Two to Tango: Towards Theory of AI's Mind
本文提出了人工智能心智理论(ToAIM)的概念,认为为了实现有效的**人机协作**,人类必须理解AI系统的优势、劣势和特点——正如AI应理解人类一样。在视觉问答(VQA)任务中,普通人在仅经过50个训练样本后,便能显著提升对VQA模型行为(失败与答案预测)的预测能力;然而,标准的解释模态(如注意力图、置信度分数)并未提供帮助,甚至在某些情况下反而降低了表现。
Theory of Mind is the ability to attribute mental states (beliefs, intents, knowledge, perspectives, etc.) to others and recognize that these mental states may differ from one's own. Theory of Mind is critical to effective communication and to teams demonstrating higher collective performance. To effectively leverage the progress in Artificial Intelligence (AI) to make our lives more productive, it is important for humans and AI to work well together in a team. Traditionally, there has been much emphasis on research to make AI more accurate, and (to a lesser extent) on having it better understand human intentions, tendencies, beliefs, and contexts. The latter involves making AI more human-like and having it develop a theory of our minds. In this work, we argue that for human-AI teams to be effective, humans must also develop a theory of AI's mind (ToAIM) - get to know its strengths, weaknesses, beliefs, and quirks. We instantiate these ideas within the domain of Visual Question Answering (VQA). We find that using just a few examples (50), lay people can be trained to better predict responses and oncoming failures of a complex VQA model. We further evaluate the role existing explanation (or interpretability) modalities play in helping humans build ToAIM. Explainable AI has received considerable scientific and popular attention in recent times. Surprisingly, we find that having access to the model's internal states - its confidence in its top-k predictions, explicit or implicit attention maps which highlight regions in the image (and words in the question) the model is looking at (and listening to) while answering a question about an image - do not help people better predict its behavior.
研究动机与目标
- 为解决人机协作中的不平衡问题,即AI被训练理解人类,但人类未被训练理解AI。
- 探究普通人是否能通过与VQA系统的最少交互,发展出对AI行为的直观理解。
- 评估现有解释模态(如注意力图、置信度分数)是否有助于人类构建对AI行为的预测模型。
- 提出并验证两项任务——失败预测与知识预测——以衡量人类对AI队友理解的程度。
- 识别当前可解释性方法的缺陷,并倡导开发新型模态,以提升人类对AI行为的可预测性。
提出的方法
- 本研究使用名为‘Vicki’的VQA模型作为人机协作场景中的AI队友。
- 在亚马逊Mechanical Turk上参与的用户需完成两项任务:失败预测(预测Vicki是否会回答正确)与知识预测(预测确切答案)。
- 参与者在测试前先接触50个带标签的示例(图像-问题对及其对应的Vicki回答),以建立熟悉感。
- 在测试过程中,向参与者展示各类解释模态(如top-k置信度分数、注意力图、隐式注意力)以评估其影响。
- 通过比较有无解释模态的条件下,失败预测与知识预测任务的准确率,衡量性能表现。
- 消融研究对比了仅提供即时反馈(IF)与IF结合解释模态的性能,结果表明加入解释模态并未带来提升,甚至在某些情况下导致性能下降。
实验结果
研究问题
- RQ1普通人是否能通过与VQA系统的最少交互,发展出对AI行为的可靠心智模型(即ToAIM)?
- RQ2标准解释模态(如注意力图、置信度分数)在多大程度上提升了人类对VQA模型行为的预测能力?
- RQ3接触解释模态是否会引发对AI行为模式的过度拟合或幻觉?
- RQ4与依赖解释模态相比,通过50个示例建立对AI的熟悉感,在预测AI表现方面效果如何?
- RQ5失败预测与知识预测任务的表现是否可在不同VQA模型间泛化?
主要发现
- 普通人在仅接触50个训练样本后,对VQA模型行为的预测能力显著提升,表明仅靠熟悉感即可有效发展出ToAIM。
- 在失败预测与知识预测任务中,加入解释模态(如置信度分数、注意力图、隐式注意力)并未提升预测准确率。
- 在某些情况下,解释模态的存在反而导致知识预测性能出现统计上显著的下降,表明其可能误导用户或诱发过度拟合。
- 接触解释模态的参与者更倾向于在AI行为中“幻觉”出不存在的模式,表明当前模态无法有效支持准确心智模型的构建。
- 对VQA模型行为预测的表现可在不同VQA模型间泛化,表明ToAIM技能可能具备可迁移性。
- 本研究揭示了当前可解释AI中的关键缺口:现有模态无法帮助用户更准确地预测AI行为,亟需设计更有效的新解释形式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。