[논문 리뷰] Can Large Language Models Transform Computational Social Science?
본 논문은 13개의 LLM의 제로샷 성능을 25개 CSS 작업에서 벤치마킹하고, LLM이 잘 훈련된 분류기보다 드물게를 넘지 못하지만 공정한 라벨링과 유용한 생성은 가능하다고 밝혀, 인간–AI 협업 CSS 워크플로우를 시사한다.
Large Language Models (LLMs) are capable of successfully performing many language processing tasks zero-shot (without training data). If zero-shot LLMs can also reliably classify and explain social phenomena like persuasiveness and political ideology, then LLMs could augment the Computational Social Science (CSS) pipeline in important ways. This work provides a road map for using LLMs as CSS tools. Towards this end, we contribute a set of prompting best practices and an extensive evaluation pipeline to measure the zero-shot performance of 13 language models on 25 representative English CSS benchmarks. On taxonomic labeling tasks (classification), LLMs fail to outperform the best fine-tuned models but still achieve fair levels of agreement with humans. On free-form coding tasks (generation), LLMs produce explanations that often exceed the quality of crowdworkers' gold references. We conclude that the performance of today's LLMs can augment the CSS research pipeline in two ways: (1) serving as zero-shot data annotators on human annotation teams, and (2) bootstrapping challenging creative generation tasks (e.g., explaining the underlying attributes of a text). In summary, LLMs are posed to meaningfully participate in social science analysis in partnership with humans.
연구 동기 및 목표
- 분석에 도움을 줄 수 있는 LLM의 작업을 식별하기 위해 CSS 문헌을 조사한다.
- 대표적인 CSS 작업 세트에서 다수 LLM의 제로샷 성능을 평가한다.
- 모델 크기와 프리트레이닝이 CSS 작업 성능에 미치는 영향을 분석한다.
- CSS 라벨링과 분석에서 인간–AI 협업을 위한 실용적 로드맵을 제공한다.
제안 방법
- 발화-대화-문서 수준 분석에 걸친 24개의 다양한 CSS 작업을 선별한다.
- 이들 작업에 걸쳐 제로샷 프롬팅으로 13개의 언어 모델을 평가한다.
- 가능하다면 제로샷 결과를 인간 주석 및 미세조정 기준과 비교한다.
- CSS 작업을 위한 프롬프트 베스트 프랙티스와 평가 파이프라인을 개발한다.
- LLM의 설명적 및 재구성 능력을 평가하기 위한 생성 작업을 수행한다.
실험 결과
연구 질문
- RQ1RQ1 Viability: LLM이 인간 주석을 신뢰할 수 있는 라벨링으로 보강할 수 있는가?
- RQ2RQ2 모델 선택: 모델 크기와 프리트레이닝이 CSS 작업 성능에 어떤 영향을 미치는가?
- RQ3RQ3 도메인 유용성: 제로샷 LLM이 특정 CSS 도메인에서 다른 도메인보다 더 잘 수행하는가?
- RQ4RQ4 기능성: LLM이 라벨링(분류) 작업, 생성(설명) 작업, 또는 둘 다에 적합한가?
주요 결과
- 프롬프트를 사용한 LLM은 일반적으로 신중하게 미세조정된 분류기와 같거나 이를 능가하지 않지만, 인간 라벨링과의 공정한 일치를 달성할 수 있다.
- 여러 작업에서 모델 성능이 크기에 따라 향상되며, 대체가 아니라 보강의 유용성을 시사한다.
- LLMs는 품질, 일관성, 관련성에서 데이터셋 참고자료에 도달하거나 이를 초월하는 설명을 생성할 수 있다.
- 인간과 LLM 출력은 보완적이며, 인간이 모델 출력을 선호하는 비율은 대략 절반이다.
- 제안된 혼합 지도-비지도 라벨링 접근법은 CSS 텍스트 분석을 속도와 정확도 측면에서 개선할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.