[논문 리뷰] Understanding the LLM-ification of CHI: Unpacking the Impact of LLMs at CHI through a Systematic Literature Review
2020–2024년 CHI 논문 153편의 체계적 문헌 검토로 LLM이 HCI에서 어떻게 적용되었는지, 그들이 수행하는 역할, 기여 유형, 그리고 관련된 제한 및 위험을 분석합니다.
Large language models (LLMs) have been positioned to revolutionize HCI, by reshaping not only the interfaces, design patterns, and sociotechnical systems that we study, but also the research practices we use. To-date, however, there has been little understanding of LLMs' uptake in HCI. We address this gap via a systematic literature review of 153 CHI papers from 2020-24 that engage with LLMs. We taxonomize: (1) domains where LLMs are applied; (2) roles of LLMs in HCI projects; (3) contribution types; and (4) acknowledged limitations and risks. We find LLM work in 10 diverse domains, primarily via empirical and artifact contributions. Authors use LLMs in five distinct roles, including as research tools or simulated users. Still, authors often raise validity and reproducibility concerns, and overwhelmingly study closed models. We outline opportunities to improve HCI research with and on LLMs, and provide guiding questions for researchers to consider the validity and appropriateness of LLM-related work.
연구 동기 및 목표
- 2020-2024년 CHI 논문에서 LLM이 적용된 도메인을 식별합니다.
- LLM이 CHI 프로젝트에서 어떻게 사용되는지(역할과 워크플로우)를 특징짓습니다.
- 경험적, 산출물 등 기여 유형과 그 비율(현황)을 분류합니다.
- CHI에서 LLM 기반 연구의 한계와 위험을 문서화합니다.
- LLM 관련 CHI 연구의 엄격성과 책임성을 향상시키기 위한 오픈 소스 데이터셋과 가이드 질문을 제공합니다.
제안 방법
- 2020-2024년 CHI proceedings의 전全文을 수집하되 생성적 LLM에 초점을 맞춰.
- 키워드 기반 필터링을 적용하여 LLM 관련 논문을 식별합니다(예: 'language model', 'llm', 'GPT', 'ChatGPT').
- 무작위 샘플링으로 잘못된 음수를 확인하여 코퍼스를 검증합니다(0.5% 발견).
- 네 가지 연구 질문과 기존 분류체계를 바탕으로 반복적 개방 코딩을 통해 코드북을 개발했습니다.
- 여러 코딩 차원에 대해 Krippendorff의 α로 조사자 간 신뢰도를 평가했습니다.
- 도메인, 역할, 기여, 한계/위험 분류를 산출하기 위해 153편의 논문에 코딩했습니다.
- 질적 코드와 메타데이터를 포함하는 153편의 논문의 오픈 소스 데이터셋을 제공합니다.

실험 결과
연구 질문
- RQ1LLM은 CHI에서 어디에 적용되었나요?
- RQ2연구자들은 CHI 논문에서 LLM을 어떻게 활용했나요?
- RQ3LLM 관련 CHI 논문은 HCI에 어떤 기여를 했나요?
- RQ4CHI 논문에서 저자들이 언급하는 LLM에 대한 우려나 위험은 무엇인가요?
주요 결과
- LLMs were applied across 10 diverse domains within CHI (e.g., Communication & Writing, Augmenting Capabilities, Education, Responsible Computing, Programming, Reliability & Validity, Well-being & Health, Design, Accessibility & Aging, Creativity).
- Authors leveraged LLMs in five distinct roles, including as system engines, research tools, participants/users, objects of study, and exploring users’ perceptions.
- Empirical and artifact contributions dominated CHI LLM work, with 98.7% empirical and 61.4% artifact-related, often in combination.
- A total of 29 limitations and risks were identified, spanning LLM performance, research validity, resources, and societal impacts.
- There is a strong emphasis on validity and reproducibility, with many studies focusing on closed models rather than open alternatives.
- An open-source dataset of the 153 papers and qualitative codes is provided for replication and further study.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.