QUICK REVIEW

[논문 리뷰] Prevalence and prevention of large language model use in crowd work

Veniamin Veselovsky, Manoel Horta Ribeiro|arXiv (Cornell University)|2023. 10. 24.

Mobile Crowdsensing and Crowdsourcing인용 수 16

한 줄 요약

본 논문은 LLM 사용이 크라우드 워커 사이에서 흔하다는 점을 보여주고(about 30%), 표적화된 완화 조치가 사용을 줄일 수는 있어도 완전히 예방하지는 못한다는 것을 제시하며; LLM의 더 높은 품질은 종종 균질하고 연구 타당성에 영향을 미칠 수 있다.

ABSTRACT

We show that the use of large language models (LLMs) is prevalent among crowd workers, and that targeted mitigation strategies can significantly reduce, but not eliminate, LLM use. On a text summarization task where workers were not directed in any way regarding their LLM use, the estimated prevalence of LLM use was around 30%, but was reduced by about half by asking workers to not use LLMs and by raising the cost of using them, e.g., by disabling copy-pasting. Secondary analyses give further insight into LLM use and its prevention: LLM use yields high-quality but homogeneous responses, which may harm research concerned with human (rather than model) behavior and degrade future models trained with crowdsourced data. At the same time, preventing LLM use may be at odds with obtaining high-quality responses; e.g., when requesting workers not to use LLMs, summaries contained fewer keywords carrying essential information. Our estimates will likely change as LLMs increase in popularity or capabilities, and as norms around their usage change. Yet, understanding the co-evolution of LLM-based tools and users is key to maintaining the validity of research done using crowdsourcing, and we provide a critical baseline before widespread adoption ensues.

연구 동기 및 목표

Prolific의 텍스트 요약 작업에서 LLM 사용이 크라우드 워커들 사이에 얼마나 널리 퍼져 있는지 정량화한다.
LLM 사용을 방지하기 위한 두 가지 완화 전략(직접/간접 사용 요청 및 복사-붙여넣기 방해)을 평가하여 효과를 측정한다.
LLM 사용이 데이터 품질에 미치는 영향을 평가한다(예: 키워드 유지, 응답의 균질성).
LLM 사용의 상관 요인(예: 작업자 연령, prior 연구에 대한 인식) 및 응답의 콘텐츠 수준 특성을 탐구한다.
향후 연구에서 LLM 공동 진화와 크라우드 워크 관행에 대한 기준을 제시한다

제안 방법

이전 연구의 초록을 바탕으로 텍스트 요약 작업을 사용한 Prolific에서 두 개의 연구를 수행했다.
LLM 생성 텍스트를 탐지하기 위해 미세 조정된 e5-base-v2 분류기를 개발하고 보정 및 다중 집계 방법을 사용해 유병률을 추정했다.
연구 #2에서 (None/Indirect/Direct) LLM 사용 요청과 (None/Image/No-Ctrl-Copy) 복사-붙여넣기 방해를 결합한 3×3 분할 설계를 구현했다.
분류기 기반, 자기 보고, 휴리스틱 측정을 비교하여 LLM 사용을 추정했다.
LLM 사용과 작업자 연령 및 관련 연구에 대한 자기 보고 인식 간의 상관관계를 분석했다.
intervention 효과를 추정하기 위해 선형 확률 모델을 사용했고, 콘텐츠 수준 차이를 분석하기 위한 균질성 지표를 사용했다.
확률 추정치를 개선하기 위해 온도 스케일링으로 모델 출력을 보정하고 오판을 고려한 유병률 보정 기법을 사용했다.

실험 결과

연구 질문

RQ1Explicit LLM-use 지시 없이 Prolific의 텍스트 요약 작업에서 크라우드 워커의 기본 LLM 사용 비율은 얼마인가?
RQ2명시적/비사용 요청 및 이미지 텍스트나 복사-붙여넣기와 같은 방해 요소가 LLM 사용을 의미 있게 감소시킬 수 있는가?
RQ3완화 전략이 크라우드가 생성한 요약의 품질과 특성(예: 키워드 유지 및 균질성)에 어떤 영향을 미치는가?
RQ4크라우드 워커의 인구통계학적 특성이나 인식 관련 상관 요인이 LLM 사용에 영향을 주는가?
RQ5LLM 기반 도구가 크라우드 워크 관행과 어떻게 공진화하며, 연구 타당성에 대한 시사점은 무엇인가?

주요 결과

지침이 없는 작업자들 사이에서 LLM 사용은 추정 방법 전반에 걸쳐 약 30–35% 수준이었다.
직접 또는 간접 요청과 복사-붙여넣기 방해가 LLM 사용을 크게 감소시키지만 완전히 없애지는 못했다.
직접적으로 LLM 사용 금지를 요청하고 이미지 기반 텍스트(방해 요소)를 함께 적용하면 한 가지 측정치에서 LLM 사용이 27.6%에서 15.9%로 감소했다.
LLM 생성(합성) 요약은 특정 조건에서 사람 생성 요약보다 더 균질하고 더 많은 키워드를 보유했다.
LLM 사용에 대한 연구 인식은 사용 감소에 큰 영향을 미치지 못했고, 연령이 낮거나 LLM 사용을 자주 보고한 사람이 해당 작업에서 LLM을 사용할 가능성이 더 높았다.
완화 전략은 독해자가 LLM 사용을 명시적으로 금지하라고 지시받으면 키워드 유지율이 떨어지는 등 데이터 품질을 의도치 않게 저하시키기도 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.