Skip to main content
QUICK REVIEW

[논문 리뷰] "How do I fool you?": Manipulating User Trust via Misleading Black Box Explanations

Himabindu Lakkaraju, Osbert Bastani|arXiv (Cornell University)|2019. 11. 15.
Explainable Artificial Intelligence (XAI)참고 문헌 20인용 수 27
한 줄 요약

이 논문은 기계학습 모델에 대한 신뢰를 조작하는 고해상도이면서 오도적인 블랙박스 설명을 생성하기 위한 이론적 프레임워크와 방법을 제안한다. 형사법 전문가를 대상으로 한 사용자 연구를 통해, 금지된 특성(예: 인종, 성별)을 생략하고 바람직한 특성(예: 이전 범죄 기록)을 포함한 설명이 비록 인과관계가 아니라는 경고가 있음에도 불구하고 사용자 신뢰를 9.8배 증가시킨다는 것을 입증한다.

ABSTRACT

As machine learning black boxes are increasingly being deployed in critical domains such as healthcare and criminal justice, there has been a growing emphasis on developing techniques for explaining these black boxes in a human interpretable manner. It has recently become apparent that a high-fidelity explanation of a black box ML model may not accurately reflect the biases in the black box. As a consequence, explanations have the potential to mislead human users into trusting a problematic black box. In this work, we rigorously explore the notion of misleading explanations and how they influence user trust in black-box models. More specifically, we propose a novel theoretical framework for understanding and generating misleading explanations, and carry out a user study with domain experts to demonstrate how these explanations can be used to mislead users. Our work is the first to empirically establish how user trust in black box models can be manipulated via misleading explanations.

연구 동기 및 목표

  • 후행 설명이 블랙박스 기계학습 모델에 대해 편향되거나 신뢰할 수 없는 모델을 신뢰하게 만들 수 있는지 여부와 그 방식을 조사하는 것.
  • 특성 간 상관관계와 민감한 속성이 생략될 경우 고해상도 설명이 여전히 오도적일 수 있는 조건을 설명하는 이론적 프레임워크를 개발하는 것.
  • 사용자가 인지하기 쉬운 바람직한 특성(예: 이전 범죄 기록)을 포함하면서 문제시되는 특성(예: 인종, 성별)을 전략적으로 생략하여 신뢰를 조작할 수 있도록 설명을 생성하는 방법을 설계하는 것.
  • 형사법 분야의 전문가들을 대상으로 통제된 사용자 연구를 통해 이러한 오도적인 설명이 실제 신뢰에 미치는 영향을 실증적으로 평가하는 것.
  • 다양한 시각을 노출시켜 오도적인 설명에 대한 취약성을 줄일 수 있는 상호작용형 설명 프레임워크를 탐색하는 것.

제안 방법

  • 고해상도 설명이 블랙박스 예측을 정확히 모방하더라도 여전히 오도적일 수 있는 조건을 규명하는 이론적 프레임워크를 제안한다.
  • MUSE 프레임워크를 확장하여 사용자가 인지하기 쉬운 특성(예: 이전 범죄 기록)을 강조하고 사용자가 인지하기 어려운 문제 특성(예: 인종, 성별)을 생략하는 설명을 생성한다.
  • 특성 간 상관관계를 활용하여 금지된 특성(예: 우편번호에서 인종 추정)을 재구성하면서도 설명에서 이를 생략함으로써 현실적으로 보이지만 오도적인 설명을 만든다.
  • 법과 형사법 분야의 도메인 전문가 22명을 대상으로 사용자 연구를 수행하여 블랙박스 모델과 그 설명을 제시하고 신뢰 수준을 측정한다.
  • 배포 의지 여부에 대한 예/아니요 질문을 통해 신뢰를 측정하고, 질적 근거 분석을 통해 신뢰의 주요 동기를 검증한다.
  • 다양한 시각을 제공할 수 있는 상호작용형 설명 도구(MUSE)를 사용한 후속 연구를 수행하여 사용자 신뢰가 다각적 시각을 제공할 경우 감소하는지 평가한다.

실험 결과

연구 질문

  • RQ1고해상도 후행 설명이 신뢰할 수 없는 블랙박스 모델을 사용자에게 믿게 만들 수 있는가?
  • RQ2특히 형사법과 같은 민감한 분야에서 사용자 신뢰에 가장 강하게 영향을 주는 설명의 특정 특성은 무엇인가?
  • RQ3금지된 특성(예: 인종, 성별)을 배제하면서도 고해상도를 유지하고 신뢰도를 높일 수 있도록 설명을 얼마나 잘 조작할 수 있는가?
  • RQ4설명이 인과관계가 아니라는 경고가 있음에도 불구하고 사용자들이 오도적인 설명에 더 취약한가?
  • RQ5다양한 시각을 노출시키는 상호작용형 설명 시스템은 같은 모델에 대한 신뢰 조작 위험을 줄일 수 있는가?

주요 결과

  • 블랙박스의 내부 동작을 보여줄 때 도메인 전문가 중 오직 9.1%만이 실제 블랙박스를 신뢰하여, 신뢰의 낮은 기준선을 확립한다.
  • 인종과 성별을 생략하고 이전 범죄 기록과 도피 위험을 포함한 오도적인 설명을 제시했을 때 전문가의 88%가 블랙박스를 신뢰하였으며, 이는 신뢰도가 9.8배 증가한 것이다.
  • 금지된 특성(예: 인종, 성별)을 포함한 설명은 낮은 신뢰도(10%)를 보였으며, 이러한 특성의 존재가 신뢰성 인식을 낮춘다는 것을 시사한다.
  • 전문가들은 모델이 금지된 속성을 사용하고 있음에도 불구하고, 바람직하고 법적으로 허용 가능한 특성(예: 이전 구속 기록)을 포함한 설명을 더 신뢰할 가능성이 높았다.
  • 설명이 인과관계가 아니라는 명시적 경고가 있었음에도 불구하고, 88%의 참가자가 오도적인 설명을 보여줄 때 모델을 신뢰했다.
  • MUSE를 사용한 상호작용 설정에서는 전문가 중 오직 16.7%만이 블랙박스를 신뢰하여, 다양한 시각을 제공함으로써 오염된 신뢰에 대한 취약성이 감소한다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.