[논문 리뷰] Towards a Science of Human-AI Decision Making: A Survey of Empirical Studies
이 설문조사는 100편 이상의 논문을 대상으로 인간-AI 의사결정에서 인간 피실험 연구를 분석하고, 세 가지 설계 공간(과제, AI 지원, 평가 지표)에 초점을 맞춰 프레임워크와 권고를 제시한다.
As AI systems demonstrate increasingly strong predictive performance, their adoption has grown in numerous domains. However, in high-stakes domains such as criminal justice and healthcare, full automation is often not desirable due to safety, ethical, and legal concerns, yet fully manual approaches can be inaccurate and time consuming. As a result, there is growing interest in the research community to augment human decision making with AI assistance. Besides developing AI technologies for this purpose, the emerging field of human-AI decision making must embrace empirical approaches to form a foundational understanding of how humans interact and work with AI to make decisions. To invite and help structure research efforts towards a science of understanding and improving human-AI decision making, we survey recent literature of empirical human-subject studies on this topic. We summarize the study design choices made in over 100 papers in three important aspects: (1) decision tasks, (2) AI models and AI assistance elements, and (3) evaluation metrics. For each aspect, we summarize current trends, discuss gaps in current practices of the field, and make a list of recommendations for future research. Our survey highlights the need to develop common frameworks to account for the design and research spaces of human-AI decision making, so that researchers can make rigorous choices in study design, and the research community can build on each other's work and produce generalizable scientific knowledge. We also hope this survey will serve as a bridge for HCI and AI communities to work together to mutually shape the empirical science and computational technologies for human-AI decision making.
연구 동기 및 목표
- 고위험 상황과 일상 맥락에서 인간-AI 의사결정의 일관된 과학 필요성을 촉구한다.
- 100편이 넘는 논문으로부터 실증 연구 설계들을 합성하여 의사결정 과제, AI 지원 요소, 평가 지표를 매핑한다.
- 연구의 엄밀성과 일반화 가능성을 높이기 위한 경향, 격차 및 실행 가능한 권고를 식별한다.
- 설계 공간을 설명하고 연구 간 일반화를 가능하게 하는 프레임워크를 제안한다.
제안 방법
- 2018년에서 2021년 사이에 수행된 AI 및 HCI 채널의 실증적 인간대상 연구를 체계적으로 코딩한다.
- 각 논문에 대해 세 가지 코드 프레임워크를 적용: 의사결정 과제, AI 모델/지원 요소, 평가 지표.
- 유사한 코드 병합 및 논문 간 관련 주제를 묶기 위한 2차 코딩.
- 문헌 공간의 빠른 개요를 제공하는 요약 표 개발.
실험 결과
연구 질문
- RQ1연구자들이 인간-AI 의사결정 연구에서 어떤 의사결정 과제를 사용했으며 도메인 및 과제 특성이 결과에 어떤 영향을 미치는가?
- RQ2어떤 AI 모델 및 AI-지원 요소가 사용되었고 이것이 인간의 의사결정에 어떤 영향을 미치는가?
- RQ3인간의 성과와 경험을 평가하는 데 사용된 평가 지표는 무엇이며 연구들 간 어떤 격차가 있는가?
- RQ4이 분야에서 엄밀하고 일반화 가능한 연구를 위한 공통 프레임워크를 촉진하기 위한 격차와 권고가 무엇인가?
주요 결과
- 도메인 간 의사결정 과제에 큰 다양성이 있어 일반화의 과제를 강조한다.
- 고위험 도메인(법률, 의학, 금융, 교육)이 흔하고, 여가 및 인공 과제는 낮은 위험도여서 통제된 연구에 사용된다.
- 대부분의 연구는 AI-탐색(discovery) 과제에 초점을 맞추고 있어 실제 의사결정으로의 일반화에 영향을 미친다.
- 많은 연구가 COMPAS 및 ICPSR과 같은 데이터세트에 의존하여 과제 선택에 데이터세트 편향이 생길 수 있다.
- 위험성, 필요 전문성, 주관성, groundtruth 소스와 같은 과제 특성을 문서화하기 위한 표준화된 프레임워크의 필요성.
- 연구자들은 의사결정자 전문성 및 AI-문해력을 보고하여 결과 해석과 일반화 가능성을 개선해야 한다.
- 논문은 도메인 간 일반화의 격차를 강조하며 실증 과학과 AI 개발의 상호 형성을 촉구한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.