[논문 리뷰] Divergent Creativity in Humans and Large Language Models
이 논문은 최첨단 LLM의 의미 다양성을 큰 인간 데이터 세트와 체계적으로 비교하여, LLM이 분산 작업에서 평균 인간을 능가할 수 있으나 매우 창의적인 개인을 능가하지는 못한다는 것을 보여주고, 의미 다양성을 향상시키기 위한 벤치마킹과 방법론을 제안한다.
The recent surge of Large Language Models (LLMs) has led to claims that they are approaching a level of creativity akin to human capabilities. This idea has sparked a blend of excitement and apprehension. However, a critical piece that has been missing in this discourse is a systematic evaluation of LLMs' semantic diversity, particularly in comparison to human divergent thinking. To bridge this gap, we leverage recent advances in computational creativity to analyze semantic divergence in both state-of-the-art LLMs and a substantial dataset of 100,000 humans. We found evidence that LLMs can surpass average human performance on the Divergent Association Task, and approach human creative writing abilities, though they fall short of the typical performance of highly creative humans. Notably, even the top performing LLMs are still largely surpassed by highly creative individuals, underscoring a ceiling that current LLMs still fail to surpass. Our human-machine benchmarking framework addresses the polemic surrounding the imminent replacement of human creative labour by AI, disentangling the quality of the respective creative linguistic outputs using established objective measures. While prompting deeper exploration of the distinctive elements of human inventive thought compared to those of AI systems, we lay out a series of techniques to improve their outputs with respect to semantic diversity, such as prompt design and hyper-parameter tuning.
연구 동기 및 목표
- 최신 상태의 LLM과 대규모 인간 데이터 세트의 분기 사고(Task)에서 의미 다양성을 평가한다.
- LLMs가 분기 연상 및 창의적인 글쓰기에서 평균 및 고창의 인간에 비해 어떤 위치에 있는지 정량화한다.
- 객관적 지표로 창의적 언어 산출물을 평가하는 인간-기계 벤치마킹 프레임워크를 제공한다.
- 프롬프트 설계 및 하이퍼파라미터 조정과 같은 기술을 제시하여 LLM의 의미 다양성을 향상시킨다.
제안 방법
- 컴퓨팅 창의성 방법을 적용하여 LLM 출력의 의미 발산을 측정한다.
- Divergent Association Task와 창의적 글쓰기 벤치마크를 사용하여 100,000명의 인간 데이터 포인트와 대조한다.
- 여러 프롬프트 전략 및 모델 구성에서 LLM 성능을 벤치마크한다.
- 창의성 및 언어 다양성의 확립된 객관적 지표로 출력물을 분석한다.]
- research_questions_modules_provided_in_language_validation?
- research_questions: default to translated list
실험 결과
연구 질문
- RQ1LLMs가 분기 사고(Task)에서 평균 인간을 능가하는가?
- RQ2LLMs가 고창의적 인간의 창의성에 접근하거나 이를 능가하는가?
- RQ3인간과 AI의 창의적 산출물의 질적/양적 측면의 핵심 차이점은 무엇인가?
- RQ4L LM 의미 다양성을 높일 수 있는 프롬프트 및 하이퍼파라미터 전략은 무엇인가?
주요 결과
- LLMs는 Divergent Association Task에서 평균 인간 성과를 능가할 수 있다.
- LLMs는 인간의 창의적 글쓰기 능력에 접근하지만 일반적으로 고창의적 인간의 성능에 도달하지 못한다.
- 최상위 LLM도 대개 고창의적 개인에게 밀려 현재 모델의 한계를 시사한다.
- 인간-기계 벤치마킹 프레임워크가 객관적 지표를 사용하여 출력 품질을 구분하는 데 도움이 된다.
- 논문은 의미 다양성을 향상시키기 위한 프롬프트 설계와 하이퍼파라미터 조정과 같은 기술을 제안한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.