QUICK REVIEW

[논문 리뷰] What Would You Ask the Machine Learning Model? Identification of User Needs for Model Explanations Based on Human-Model Conversations

Michał Kuźba, Przemysław Biecek|arXiv (Cornell University)|2020. 02. 07.

Explainable Artificial Intelligence (XAI)참고 문헌 43인용 수 21

한 줄 요약

이 논문은 기계학습 모델의 예측에 대해 사용자가 질문하는 방식을 통해 실제 세계의 모델 설명 수요를 파악하는 대화형 AI 시스템 dr_ant를 제안한다. 티타닉 생존 모델과의 1,000건 이상의 대화를 분석함으로써 반복되는 사용자 질문 패턴을 규명하였으며, 기존의 개발자 중심 설계에서 벗어나 사용자 중심 설계로의 전환을 이끌어내는 혁신적인 상호작용 기반 방법을 제공한다.

ABSTRACT

Recently we see a rising number of methods in the field of eXplainable Artificial Intelligence. To our surprise, their development is driven by model developers rather than a study of needs for human end users. The analysis of needs, if done, takes the form of an A/B test rather than a study of open questions. To answer the question "What would a human operator like to ask the ML model?" we propose a conversational system explaining decisions of the predictive model. In this experiment, we developed a chatbot called dr_ant to talk about machine learning model trained to predict survival odds on Titanic. People can talk with dr_ant about different aspects of the model to understand the rationale behind its predictions. Having collected a corpus of 1000+ dialogues, we analyse the most common types of questions that users would like to ask. To our knowledge, it is the first study which uses a conversational system to collect the needs of human operators from the interactive and iterative dialogue explorations of a predictive model.

연구 동기 및 목표

기계학습 모델을 사용하는 인간 사용자의 실제 설명 수요를 파악하여, 개발자 중심의 설명 방법을 넘어서는 것.
오픈-ended이고 상호작용적인 대화를 통해 사용자가 모델 행동에 대해 기대하는 바와 질문을 드러내는 방법을 탐구하는 것.
사용자가 자연어로 블랙박스 모델을 탐색하고 질문할 수 있도록 기능하는 대화형 AI 에이전트(dr_ant)를 개발하고 구현하는 것.
수집된 대화를 분석하여 반복되는 질문 유형과 설명을 위한 사용자 동기를 도출하여 향후 XAI 시스템 설계에 기여하는 것.
대화 기반 상호작용이 비전문가 사용자에게 특히 효과적이고 확장 가능한 방법으로서 설명 가능성 AI에서 사용자 수요를 효과적으로 도출할 수 있음을 입증하는 것.

제안 방법

티타닉 데이터셋에 기반한 랜덤 포레스트 모델의 예측에 대해 사용자와 대화를 나누는 챗봇 dr_ant를 개발하였다.
사용자 질문에 대한 의도 분류와 개체명 인식 기능을 갖춘 다단계 대화 시스템을 구현하여 승객 특성, 생존 예측, 설명에 관한 질문을 처리하였다.
DALEX 및 설명 모델 분석(EMA) 프레임워크에서 제공하는 모델 설명 도구(예: Ceteris Paribus 프로필 및 Break Down 플롯)를 통합하여 시각적·문자 기반 설명을 생성하였다.
동적 재학습 파이프라인을 구현: 실제 사용자 대화를 수집하고, 새로운 의도를 추가하며, 학습 데이터를 확장하여 시스템의 강건성과 커버리지 향상에 기여하였다.
웹 및 슬랙 인터페이스를 통해 시스템을 배포하여 자연스러운 환경에서 1,000건 이상의 실제 사용자 대화를 수집하였다.
반복적인 대화 관리 기법을 적용하여 오픈-ended이고 사용자 주도적인 대화를 지원함으로써 예상치 못한 질문 탐색이 가능하도록 하였다.

실험 결과

연구 질문

RQ1사용자가 기계학습 모델의 예측을 이해하고자 할 때 실제로 질문하는 질문의 유형은 무엇인가?
RQ2대화형 AI 시스템은 모델 행동에 대한 다양한 오픈-ended 질문을 효과적으로 유도하고 응답할 수 있는가?
RQ3모델 설명에 대한 사용자 질문에서 나타나는 반복적인 패턴이나 주제는 무엇이며, 사용자 배경이나 목적에 따라 어떻게 달라지는가?
RQ4상호작용 기반 대화 시스템은 설명 가능성 AI에서 사용자 수요를 탐색하고 검증하는 데 있어 확장 가능한 방법이 될 수 있는가?
RQ5역할(예: 전문가 대비 비전문가)에 따라 사용자 질문은 어떻게 다를 수 있으며, 이는 그들의 설명 수요에 대해 무엇을 드러내는가?

주요 결과

사용자 질문의 대부분은 '만약에' 시나리오(예: '만약 승객이 더 나이가 많았다면?'), 특성 중요도, 특히 성별과 연령에 대한 모델의 공정성에 관한 것이었다.
사용자들은 특정 개인에 대한 모델 행동에 자주 질문을 던지며, 이는 개별 사례 수준의 설명과 대체 가능성 추론에 대한 강한 수요를 보여준다.
매우 많은 질문이 공정성과 편향 문제에 집중하였으며, 특히 성별과 연령에 대한 우려를 드러내었다.
시스템은 1,000건 이상의 대화를 성공적으로 수집하여, 대화형 AI가 XAI에서 사용자 수요를 수집하는 데 실현 가능하고 확장 가능한 방법임을 입증하였다.
분석을 통해 특성 영향, 예측 민감도, 특정 사례에서의 모델 행동, 공정성 우려 등 명확한 질문 군집이 드러났으며, 각 군집에는 맞춤형 설명 전략이 필요하다는 점을 확인하였다.
대화 기반 접근 방식은 기존 정적 설명 방법에서 간과하기 쉬운, 모델의 한계성과 불확실성에 대한 요청과 같은 예상치 못한 사용자 수요를 드러내었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.