QUICK REVIEW

[論文レビュー] When Machines Get It Wrong: Large Language Models Perpetuate Autism Myths More Than Humans Do

Eduardo C. Garrido-Merchán, Adriana Constanza Cirera Tirschtigel|arXiv (Cornell University)|Jan 30, 2026

Autism Spectrum Disorder Research被引用数 0

ひとこと要約

この研究は人間と3つの主要LLM（GPT-4、Claude、Gemini）間で自閉症知識を比較し、人間は自閉症の神話の識別でAIを上回る一方、AIは全体的により多くの神話を推奨することを発見した。

ABSTRACT

As Large Language Models become ubiquitous sources of health information, understanding their capacity to accurately represent stigmatized conditions is crucial for responsible deployment. This study examines whether leading AI systems perpetuate or challenge misconceptions about Autism Spectrum Disorder, a condition particularly vulnerable to harmful myths. We administered a 30-item instrument measuring autism knowledge to 178 participants and three state-of-the-art LLMs including GPT-4, Claude, and Gemini. Contrary to expectations that AI systems would leverage their vast training data to outperform humans, we found the opposite pattern: human participants endorsed significantly fewer myths than LLMs (36.2% vs. 44.8% error rate; z = -2.59, p = .0048). In 18 of the 30 evaluated items, humans significantly outperformed AI systems. These findings reveal a critical blind spot in current AI systems and have important implications for human-AI interaction design, the epistemology of machine knowledge, and the need to center neurodivergent perspectives in AI development.

研究の動機と目的

-leading LLMsが人間サンプルと比較して一般的な自閉症神話を perpetuate するか debunk するかを評価する。
GPT-4、Claude、Gemini の28項目自閉症知識指標に対する正確さを評価する。
自閉症に関する人間とAIの知識の項目レベルおよびドメイン差を調査する。
参加者の特徴が自閉症知識とAI展開の医療情報への影響に関連するかを探り、医療情報提供におけるAI導入の含意を識別する。

提案手法

18の神話と10の事実を含む28項目の instrument を開発する（整合性のため2つを反復）。
178名のスペイン人参加者および3つのLLMに公式API経由で instrument を実施。
人間の回答を二値指標に変換（Likert ≥4 = 神話同意）し、LLMの項目レベル同意を割合として算出。
人間とLLMの同意割合を二項 z検定で比較。
GPT-4、Claude、Gemini の各項目ごとの同意を平均化してプールされたLLM割合を得る。
全体の誤差率を報告し、項目レベルの比較を実施して人間がAIを上回る/遅れる箇所を特定する。

実験結果

リサーチクエスチョン

RQ1主要なLLMは人間よりも高い割合で自閉症神話を支持するか。
RQ2自閉症に関する人間とAIの知識に項目またはドメイン特異的差があるか。
RQ3自閉症知識で最も良い/悪い成績を示すLLMはどれで、その理由は何か。
RQ4参加者の特徴はLLMのパフォーマンスと比較して自閉症知識にどのように関連するか。

主な発見

人間はプールされたLLMよりも神話の支持率が有意に低かった（36.2%対44.8%）。
二項z検定は z = -2.59, p = .0048 で人間に有利。
人間は28項目中18項目でAIを上回った。
GPT-4のAI誤り率が最も低く（41.6%）、次いでClaude（44.1%）、Gemini（48.7%）。
LLMsは文献で明確に否定される神話（例：自閉症は精神疾患、スクリーン使用が自閉症を引き起こす）で有利だったが、社会的・情緒的神話（例：共感・社会関係）には苦戦した。
本研究はAI医療情報の領域特異的検証が必要であり、AI開発における自閉症者の視点の価値を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。