[논문 리뷰] When Machines Get It Wrong: Large Language Models Perpetuate Autism Myths More Than Humans Do
본 연구는 인간과 선도적인 세 가지 LLM(GPT-4, Claude, Gemini) 간의 자폐 지식을 비교하고, 자폐 신화 식별에서 인간이 AI보다 우수하며 AI가 전반적으로 더 많은 신화를 지지한다는 것을 발견했다.
As Large Language Models become ubiquitous sources of health information, understanding their capacity to accurately represent stigmatized conditions is crucial for responsible deployment. This study examines whether leading AI systems perpetuate or challenge misconceptions about Autism Spectrum Disorder, a condition particularly vulnerable to harmful myths. We administered a 30-item instrument measuring autism knowledge to 178 participants and three state-of-the-art LLMs including GPT-4, Claude, and Gemini. Contrary to expectations that AI systems would leverage their vast training data to outperform humans, we found the opposite pattern: human participants endorsed significantly fewer myths than LLMs (36.2% vs. 44.8% error rate; z = -2.59, p = .0048). In 18 of the 30 evaluated items, humans significantly outperformed AI systems. These findings reveal a critical blind spot in current AI systems and have important implications for human-AI interaction design, the epistemology of machine knowledge, and the need to center neurodivergent perspectives in AI development.
연구 동기 및 목표
- 주요 LLM이 인간 표집과 비교하여 일반적인 자폐 신화를 지속시키는지 아니면 반박하는지 평가한다.
- GPT-4, Claude, Gemini의 28-item 자폐 지식 도구에 대한 정확도를 평가한다.
- 자폐에 대한 인간-AI 지식의 항목 수준 및 도메인 차이를 조사한다.
- 참여자 특성이 자폐 지식과 어떻게 관련되는지 탐색하고 AI의 건강 정보 활용에 대한 시사점을 식별한다.
제안 방법
- 일관성을 위해 두 번 반복 포함하여 18개의 신화와 10개의 사실로 28-item 도구를 개발한다.
- 공식 API를 통해 178명의 스페인 참가자와 세 개의 LLM에 도구를 실시한다.
- 인간 응답을 이원적 척도( Likert ≥4 = 신화 동의)로 변환하고 LLM의 항목 수준 동의율을 비율로 계산한다.
- 인간과 풀링된 LLM의 동의 비율을 두표본 z-검정으로 비교한다.
- GPT-4, Claude, Gemini 간 항목별 LLM 동의를 평균하여 풀링된 LLM 비율을 얻는다.
- 전반적 오차율을 보고하고 항목 수준 비교를 수행하여 인간이 AI를 능가하거나 뒤처지는 부분을 식별한다.
실험 결과
연구 질문
- RQ1주요 LLM이 인간보다 더 높은 비율로 자폐 신화를 지지하는가?
- RQ2자폐에 대한 인간과 AI 지식에 항목별 또는 도메인별 차이가 있는가?
- RQ3어떤 LLM이 자폐 지식에서 가장 좋거나 나쁜가? 그리고 그 이유는 무엇인가?
- RQ4참여자 특성이 LLM 성능과 비교하여 자폐 지식과 어떻게 관련되는가?
주요 결과
- 인간은 통합 LLM 비율(44.8%)보다 신화 승인 비율이 유의하게 낮은 36.2%였다.
- 두표본 z-검정에서 z = -2.59, p = .0048로 인간에 유리했다.
- 인간은 28개 항목 중 18개 항목에서 AI를 능가했다.
- GPT-4가 가장 낮은 AI 오차율(41.6%)을 보였고, Claude(44.1%), Gemini(48.7%)가 그 뒤를 이었다.
- 언어 모델은 문헌에서 명확히 반박된 신화(예: 자폐를 정신질환으로 보는 것, 화면 사용이 자폐를 유발한다는 것)에서 더 나았지만, 사회-정서 신화(예: 공감, 사회적 관계)에서는 어려움을 겪었다.
- 본 연구는 AI 건강 정보에 대한 도메인 특정 검증이 필요하다고 제시하고 AI 개발에서 자폐인 관점의 가치를 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.