QUICK REVIEW

[논문 리뷰] Explaining Latent Representations with a Corpus of Examples

Jonathan Crabbé, Zhaozhi Qian|arXiv (Cornell University)|2021. 10. 28.

Explainable Artificial Intelligence (XAI)인용 수 7

한 줄 요약

SimplEx는 통합 자코비안을 사용해 특징 수준 기여도를 할당함으로써, 사용자가 선택한 코퍼스 예제의 가중 혼합으로 테스트 예제의 흑상자 모델의 잠재 표현을 분해하는 후행적 설명 방법이다. 이는 다양한 작업에서 개인화되고 강건하며 해석 가능한 설명을 가능하게 하며, 잠재 공간과 출력 공간에서의 재구성에서 Deep k-NN 및 표현자 정리와 같은 기준 방법들을 능가한다.

ABSTRACT

Modern machine learning models are complicated. Most of them rely on convoluted latent representations of their input to issue a prediction. To achieve greater transparency than a black-box that connects inputs to predictions, it is necessary to gain a deeper understanding of these latent representations. To that aim, we propose SimplEx: a user-centred method that provides example-based explanations with reference to a freely selected set of examples, called the corpus. SimplEx uses the corpus to improve the user's understanding of the latent space with post-hoc explanations answering two questions: (1) Which corpus examples explain the prediction issued for a given test example? (2) What features of these corpus examples are relevant for the model to relate them to the test example? SimplEx provides an answer by reconstructing the test latent representation as a mixture of corpus latent representations. Further, we propose a novel approach, the Integrated Jacobian, that allows SimplEx to make explicit the contribution of each corpus feature in the mixture. Through experiments on tasks ranging from mortality prediction to image classification, we demonstrate that these decompositions are robust and accurate. With illustrative use cases in medicine, we show that SimplEx empowers the user by highlighting relevant patterns in the corpus that explain model representations. Moreover, we demonstrate how the freedom in choosing the corpus allows the user to have personalized explanations in terms of examples that are meaningful for them.

연구 동기 및 목표

복잡한 흑상자 모델에 대한 개인화되고 사용자 중심의 설명이 부족한 문제를 해결하기 위해 사용자가 자신의 기준 예제(코퍼스)를 정의할 수 있도록 하는 것.
모델 출력을 넘어서 잠재 표현의 해석 가능성을 향상시키기 위해 코퍼스에서 유의미하고 인간이 이해할 수 있는 구성요소로 잠재 표현을 분해하는 것.
코퍼스 예제가 모델의 예측에 기여하는 방식을 특징 수준에서 설명함으로써 예제 기반 설명과 특징 중요도 설명 사이의 격차를 메우는 것.
코퍼스 혼합을 사용하여 잠재 공간과 출력 공간 표현의 재구성에 있어 정밀도와 안정성 면에서 기존 방법을 뛰어넘는 강건하고 정확한 재구성 능력을 제공하는 것.

제안 방법

SimplEx는 사용자가 정의한 코퍼스의 예제 잠재 표현의 가중 혼합으로 테스트 예제의 잠재 표현을 분해한다.
잠재 공간에서 재구성 오차를 최소화하기 위해 새로운 미분 가능 최적화 프레임워크를 사용하여 코퍼스 가중치를 계산한다.
통합 자코비안 기법은 특징 수준에서 각 코퍼스 예제의 기여도를 정량화하기 위해 통합 기울기의 일반화된 형태이다.
사용자는 기존 학습 데이터에 국한되지 않은 임의의 예제 집합을 선택할 수 있어 개인화된 설명이 가능하다.
이 방법은 사전에 모델 아키텍처를 변경할 필요 없이 후행적으로 적용되므로 다양한 기계 학습 모델에 널리 적용 가능하다.
잠재 공간과 출력 공간 양쪽에서 재구성 정확도를 확보하기 위해 두 공간에서의 충실도를 동시에 최적화한다.

실험 결과

연구 질문

RQ1사용자가 정의한 코퍼스 예제 집합이 고정되거나 기본 설정된 기준 집합에 비해 흑상자 모델의 잠재 표현 해석 가능성에 기여하는가?
RQ2잠재 공간 분해에서 코퍼스 예제의 특징 수준 기여도를 명시적으로 정량화할 수 있는가? 이를 통해 모델의 투명성이 향상되는가?
RQ3SimplEx가 잠재 공간과 출력 공간 표현 재구성에서 Deep k-Nearest Neighbors 및 표현자 정리와 같은 기존 방법을 얼마나 뛰어넘는가?
RQ4임상 위험 예측과 같은 실제 의사결정 환경에서 사용자가 코퍼스 가중치와 특징 기여도의 가치를 어떻게 평가하는가?
RQ5개인화된 코퍼스를 선택할 수 있는 자유가 고위험 분야에서 사용자의 신뢰도와 모델 예측 이해도 향상에 기여하는가?

주요 결과

SimplEx는 MNIST 및 SEER 데이터셋에서 잠재 공간 재구성에서 기존 기준 방법인 Deep k-Nearest Neighbors 및 표현자 정리에 비해 유의미하게 높은 R² 점수(예: 0.85–0.92)를 기록했다.
SimplEx에서 코퍼스 가중치를 사용함으로써 균일 가중치보다 더 정확하고 강건한 모델 재구성 성능을 확보했으며, 재구성 충실도에서 20–30% 향상된 것으로 확인되었다.
사용자 연구에서 임상의들은 코퍼스 가중치의 중요성을 평가했으며 평균 4.0/5의 동의도를 보였고, 60%는 균일 가중치가 유용한 정보를 가림으로써 악영향을 줄 수 있다고 동의했다.
자코비안 투영이 해석 가능성에 핵심적이라고 평가되었으며, 임상의들 중 90%가(평균 4.6/5) 유사성에 기여하는 특징을 알고 있다는 것이 필수적이라고 동의했다.
임상의들 중 40%는 개인화된 코퍼스 선택의 자유가 유익하다고 평가했으며, 이는 메서드에 추가 비용 없이도 성능을 훼손하지 않고 맞춤형 설명을 가능하게 했다.
임상 응용 사례에서 임상의들은 SimplEx 설명이 예측에 대한 자신감에 영향을 주었다고 보고했으며, 60%는 코퍼스 예제의 결과가 변경될 경우(예: Bill 생존) Joe에 대한 모델 예측에 의심을 제기하게 되었다고 동의했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.