[論文レビュー] Divergent Creativity in Humans and Large Language Models
この論文は最先端の LLM と大規模な人間データセットにおける意味的多様性を系統的に比較し、LLM が分岐的タスクで平均的な人間を超えることができる一方で高度に創造的な個人には及ばず、ベンチマーキングと意味的多様性を改善する方法を提案する。
The recent surge of Large Language Models (LLMs) has led to claims that they are approaching a level of creativity akin to human capabilities. This idea has sparked a blend of excitement and apprehension. However, a critical piece that has been missing in this discourse is a systematic evaluation of LLMs' semantic diversity, particularly in comparison to human divergent thinking. To bridge this gap, we leverage recent advances in computational creativity to analyze semantic divergence in both state-of-the-art LLMs and a substantial dataset of 100,000 humans. We found evidence that LLMs can surpass average human performance on the Divergent Association Task, and approach human creative writing abilities, though they fall short of the typical performance of highly creative humans. Notably, even the top performing LLMs are still largely surpassed by highly creative individuals, underscoring a ceiling that current LLMs still fail to surpass. Our human-machine benchmarking framework addresses the polemic surrounding the imminent replacement of human creative labour by AI, disentangling the quality of the respective creative linguistic outputs using established objective measures. While prompting deeper exploration of the distinctive elements of human inventive thought compared to those of AI systems, we lay out a series of techniques to improve their outputs with respect to semantic diversity, such as prompt design and hyper-parameter tuning.
研究の動機と目的
- 状態-of-the-art LLMs の意味的多様性を大規模な人間データセットと対比して分岐思考タスクで評価する。
- LLMs が分岐的連想と創造的なライティングにおいて平均的および高度に創造的な人間と比較してどの位置にあるかを定量化する。
- 人間と機械の創造的な言語出力を客観的指標で評価するベンチマーキングの枠組みを提供する。
- プロンプト設計やハイパーパラメータ調整など、LLM の意味的多様性を改善する技術を提示する。
提案手法
- 計算的創造性の手法を適用して LLM 出力の意味的発散を測定する。
- Divergent Association Task と創造的ライティングのベンチマークを用いて 100,000 人のデータと比較する。
- 複数の prompting 戦略とモデル設定にわたって LLM の性能をベンチマークする。
- 創造性と言語的多様性の客観的指標で出力を分析する。
実験結果
リサーチクエスチョン
- RQ1LLMs は分岐的思考タスクで平均的な人間を超えるのか。
- RQ2LLMs は高度に創造的な人間の創造性に近づくのか、それとも超えるのか。
- RQ3人間とAI の創造的出力の質的・量的側面の主要な違いは何か。
- RQ4どの prompting およびハイパーパラメータ戦略が LLM の意味的多様性を高めるのか。
主な発見
- LLMs は Divergent Association Task で平均的な人間のパフォーマンスを超えることができる。
- LLMs は人間の創造的ライティング能力に近づくが、高度に創造的な人間の典型的なパフォーマンスには及ばない。
- トップクラスの LLM であっても高度に創造的な個人に大きく及ばず、現行モデルには天井があることを示す。
- 人間と機械のベンチマーキング枠組みは客観的な指標を用いて出力品質を分離・評価するのに役立つ。
- 論文は意味的多様性を向上させるためのプロンプト設計やハイパーパラメータ調整といった技術を提案している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。