Skip to main content
QUICK REVIEW

[논문 리뷰] The Promise and Peril of Human Evaluation for Model Interpretability

Bernease Herman|arXiv (Cornell University)|2017. 11. 20.
Explainable Artificial Intelligence (XAI)참고 문헌 10인용 수 45
한 줄 요약

이 논문은 설명 가능 AI에서 서술적 설명과 설득적 설명 사이의 중요한 구분을 제안하며, 인간 인지와 사용자 선호도와의 상관관계로 인해 功能적 해석 가능성(functional interpretability)이 간접적으로 인지 편향을 내재할 수 있음을 주장한다. 이에 따라 설명 모델에서 인지 기능을 분리하는 데 초점을 맞춘 두 가지 연구 방향을 제안함으로써 정확도-해석 가능성 트레이드오프를 더 잘 제어하면서도 투명성을 유지할 수 있도록 한다.

ABSTRACT

Transparency, user trust, and human comprehension are popular ethical motivations for interpretable machine learning. In support of these goals, researchers evaluate model explanation performance using humans and real world applications. This alone presents a challenge in many areas of artificial intelligence. In this position paper, we propose a distinction between descriptive and persuasive explanations. We discuss reasoning suggesting that functional interpretability may be correlated with cognitive function and user preferences. If this is indeed the case, evaluation and optimization using functional metrics could perpetuate implicit cognitive bias in explanations that threaten transparency. Finally, we propose two potential research directions to disambiguate cognitive function and explanation models, retaining control over the tradeoff between accuracy and interpretability.

연구 동기 및 목표

  • 인간 평가를 통한 설명 가능 기계학습의 투명성에 대한 윤리적 과제를 해결하기 위해.
  • 기능적 해석 가능성(functional interpretability)이 설명 모델에 암묵적인 인지 편향을 간접적으로 반영하고 유지하는 방식으로 작용할 수 있는지 규명하기 위해.
  • 해석 가능성에 영향을 주지 않으면서 공정성을 해치지 않도록 인지 기능과 설명 모델을 분리하는 연구 방향을 제안하기 위해.
  • 인지 선호도를 기능적 지표에서 분리함으로써 정확도-해석 가능성 트레이드오프를 더 잘 제어할 수 있도록 하기 위해.

제안 방법

  • 서술적 설명(정확하고 사실적인 설명)과 설득적 설명(인식을 영향을 주기 위해 설계된 설명)을 구분하는 개념적 프레임워크를 도입하기 위해.
  • 기능적 해석 가능성과 인지 기능 간의 상관관계를 분석하여, 사용자 선호도가 객관적 해석 가능성보다는 인지 편향을 반영할 수 있음을 제안하기 위해.
  • 편향 전파를 방지하기 위해 설명 모델 설계에서 인지 메커니즘을 분리하는 데 초점을 맞춘 연구 방향을 제안하기 위해.
  • 사용자 인식과 모델 정확성 간의 분리를 위한 평가 프레임워크를 주장하며, 인지 영향을 분리하기 위해 통제된 인간 실험을 사용하기 위해.
  • 사용자 선호도에 의존하지 않는 설명 품질 평가 지표를 개발하여, 객관적 기능적 유용성에 초점을 맞추기 위해.

실험 결과

연구 질문

  • RQ1기계학습 모델에서의 기능적 해석 가능성은 객관적 해석 가능성보다 얼마나 많은 인지 기능을 반영하는가?
  • RQ2설명 평가에서 사용자 선호도가 암묵적인 인지 편향을 어떻게 반영할 수 있는가?
  • RQ3인지 기능을 설명 모델 성능에서 분리하는 평가 방법을 설계할 수 있는가?
  • RQ4실제 응용에서 선호도 기반 지표를 사용할 경우 모델의 해석 가능성에 어떤 영향을 미치는가?

주요 결과

  • 기능적 해석 가능성은 인지 기능과 상관관계가 있을 수 있으며, 이는 설명 평가에서 사용자 선호도가 객관적 모델 명확성보다는 인지 편향을 반영할 수 있음을 시사한다.
  • 기능적 지표를 사용할 경우 설명 평가에서 인간 평가가 암묵적 편향을 계속해서 강화할 위험이 있다.
  • 진정한 해석 가능성과 주관적인 설득을 식별하기 위해 서술적 설명과 설득적 설명의 구분이 필수적이다.
  • 투명성을 유지하고 편향된 사용자 인식을 강화하지 않기 위해 인지 메커니즘과 설명 모델을 분리하는 것이 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.