[논문 리뷰] Should I Follow AI-based Advice? Measuring Appropriate Reliance in Human-AI Decision-Making
두 차원 AR(적절한 의존) 측정 개념을 제시하고, 속임수 호텔 리뷰와 XAI 설명이 포함된 순차 작업 연구를 통해 이를 시연한다.
Many important decisions in daily life are made with the help of advisors, e.g., decisions about medical treatments or financial investments. Whereas in the past, advice has often been received from human experts, friends, or family, advisors based on artificial intelligence (AI) have become more and more present nowadays. Typically, the advice generated by AI is judged by a human and either deemed reliable or rejected. However, recent work has shown that AI advice is not always beneficial, as humans have shown to be unable to ignore incorrect AI advice, essentially representing an over-reliance on AI. Therefore, the aspired goal should be to enable humans not to rely on AI advice blindly but rather to distinguish its quality and act upon it to make better decisions. Specifically, that means that humans should rely on the AI in the presence of correct advice and self-rely when confronted with incorrect advice, i.e., establish appropriate reliance (AR) on AI advice on a case-by-case basis. Current research lacks a metric for AR. This prevents a rigorous evaluation of factors impacting AR and hinders further development of human-AI decision-making. Therefore, based on the literature, we derive a measurement concept of AR. We propose to view AR as a two-dimensional construct that measures the ability to discriminate advice quality and behave accordingly. In this article, we derive the measurement concept, illustrate its application and outline potential future research.
연구 동기 및 목표
- AI 조언에서의 적절한 의존(AR)을 올바른 조언과 잘못된 조언을 구분하고 그 구분에 따라 행동하는 능력으로 정의한다.
- RAIR(상대적 양성 AI 의존)과 RSR(상대적 양성 자기 의존)을 이용한 AR의 2차원 측정을 제안한다.
- 호텔 리뷰 분류 작업에서 AI 조언과 설명(XAI)을 포함하는 행동 실험에서 측정 개념을Illustrate한다.
제안 방법
- AR을 자동화 및 조직 심리학 문헌에 근거한 2차원 구성으로 도출한다.
- discrimination 및 적응 행동을 포착하기 위해 RAIR과 RSR를 비율 기반 지표로 정의한다.
- 순차적 의사결정 설정을 채택한다: 인간의 초기 의사결정, AI 조언, 조언 입력 이후의 인간 의사결정.
- AI 예측기로 SVM을 사용하는 속임수 호텔 리뷰 데이터셋(정확도 86%)을 활용한다.
- XAI 처리에서 LIME 기반 설명을 적용하여 AR에 미치는 영향을 검토한다.
- 무작위 기준선과의 비교를 통해 AR를 평가하고 처리 효과를 분석한다.
실험 결과
연구 질문
- RQ1AR을 두 차원으로 엄밀하게 측정하려면 어떻게 해야 하는가?
- RQ2설명(XAI)이 인간의 AI 조언 구분 능력 및 의사결정 조정에 어떤 영향을 미치는가?
- RQ3정확한/부정확한 AI 조언이 존재하는 상황에서 양성 AI 의존과 양성 자기 의존이 AR 차원에 다르게 반응하는가?
- RQ4제안된 AR 프레임워크가 인간-AI 의사결정에서 과소의존 또는 과다의존을 구분할 수 있는가?
주요 결과
- AI 조건에서 인간 참가자는 상대적 양성 자기 의존(RSR) 0.72(±0.03)와 상대적 양성 AI 의존(RAIR) 0.30(±0.03)를 보였다.
- XAI 조건에서 RAIR은 0.39(±0.03)로 증가했고 RSR은 0.72(±0.03)로 유지되었다.
- XAI에 따른 RAIR 증가가 통계적으로 유의미했다(t = -1.95, p = 0.05).
- 설명은 과소의존을 줄이면서 과다의존을 유발하지 않는 미묘한 AR 지표의 효과를 나타낼 수 있다.
- 연구는 XAI와 같은 설계 선택이 구분능력과 이후 의존 행동에 어떤 영향을 미치는지 분석하는 데 2차원 AR 측정의 활용성을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.