[논문 리뷰] Human-in-the-Loop Interpretability Prior
우리는 인간-루프 사전 p(M)을 도입하여 예측성과 해석가능성을 모두 갖춘 모델을 최적화하고, 사용자 연구 필요 수를 최소화하기 위한 모델 기반 최적화 접근법을 사용합니다.
We often desire our models to be interpretable as well as accurate. Prior work on optimizing models for interpretability has relied on easy-to-quantify proxies for interpretability, such as sparsity or the number of operations required. In this work, we optimize for interpretability by directly including humans in the optimization loop. We develop an algorithm that minimizes the number of user studies to find models that are both predictive and interpretable and demonstrate our approach on several data sets. Our human subjects results show trends towards different proxy notions of interpretability on different datasets, which suggests that different proxies are preferred on different tasks.
연구 동기 및 목표
- 모델 학습에 인간 해석가능성을 통합하여 안전성과 유용성을 높이자는 동기 부여.
- 사용자 피드백으로부터 직접 인간 해석가능성 선호를 포착하는 실용적인 사전 p(M) 제안.
- 적은 수의 사용자 연구로 고가능성 예측 모델을 식별하고 해석가능성을 최적화하는 비용 효과적 파이프라인 개발.
- 다른 데이터셋이 서로 다른 해석가능성 프록시와 일치함을 보여주어 맥락 의존적 선호를 강조.
제안 방법
- SILF 기반 가능도 로 정의하여 임계 성능 기준을 인코딩하는 p(X|M) 정의.
- p(M) 를 인간 해석가능성 사전(HIS)으로 정의하고, 인간 평가자의 평균 반응 시간(RT)을 통합한다.
- HIS 평가를 위해 국소적으로 복잡한 모델을 근사하는 로컬 프록시를 사용하여 임의의 모델에 p(M)을 확장한다.
- Gaussian Process와 UCB 취득 함수를 이용한 모델 기반 최적화를 사용하여 p(M)을 평가할 모델을 선택한다.
- p(X|M)와 함께 고가능성 모델의 다양성을 식별한 다음, 이들 중에서 p(X|M)p(M)을 최대화하도록 가능한 한 적은 수의 사용자 연구로 탐색한다.
실험 결과
연구 질문
- RQ1인간의 선호를 직접 반영하는 해석가능성을 어떻게 정량화할 수 있을까?
- RQ2정확성과 해석가능성을 모두 갖춘 모델을 감소된 인간 평가 수로 효율적으로 식별할 수 있을까?
- RQ3다른 프록시들이 데이터셋과 모델 클래스 전반에서 인간 판단과 일치하는가?
- RQ4국소 프록시를 전체 모델 대비 사용할 때 해석가능성 사전 추정에 어떤 영향이 있는가?
주요 결과
- 해석가능성에 대한 서로 다른 프록시가 각 데이터셋에서 서로 다른 최적 모델로 이어진다.
- 데이터 포인트의 소규모 표본에서 올바른 해석가능성 프록시를 계산하는 것이 더 큰 표본에서 잘못된 프록시를 사용하는 것보다 종종 낫다.
- 모델 기반 최적화가 데이터셋 전반에 걸쳐 인간이 선호하는 해석가능한 모델을 찾는 데 있어 무작위 모델 선택보다 우수하다.
- 인간-루프 최적화를 통해 더 빨리 응답 시간을 얻고 프록시 점수가 낮은 모델을 얻어 인간 해석가능성과의 정합성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.