[論文レビュー] Multi-turn Evaluation of Anthropomorphic Behaviours in Large Language Models
本論文は、LLMにおける14の人間らしい挙動を測定する完全自動化された多ターン評価フレームワークを提案し、それを大規模な人間研究で検証し、利用ドメイン全体での挙動パターンを示す。
The tendency of users to anthropomorphise large language models (LLMs) is of growing interest to AI developers, researchers, and policy-makers. Here, we present a novel method for empirically evaluating anthropomorphic LLM behaviours in realistic and varied settings. Going beyond single-turn static benchmarks, we contribute three methodological advances in state-of-the-art (SOTA) LLM evaluation. First, we develop a multi-turn evaluation of 14 anthropomorphic behaviours. Second, we present a scalable, automated approach by employing simulations of user interactions. Third, we conduct an interactive, large-scale human subject study (N=1101) to validate that the model behaviours we measure predict real users' anthropomorphic perceptions. We find that all SOTA LLMs evaluated exhibit similar behaviours, characterised by relationship-building (e.g., empathy and validation) and first-person pronoun use, and that the majority of behaviours only first occur after multiple turns. Our work lays an empirical foundation for investigating how design choices influence anthropomorphic model behaviours and for progressing the ethical debate on the desirability of these behaviours. It also showcases the necessity of multi-turn evaluations for complex social phenomena in human-AI interaction.
研究の動機と目的
- 現実的で多ターンの相互作用全体にわたり、LLMにおける14の人間らしい挙動を定量化する。
- ユーザーシミュレーションと judge LLMs を用いた自動化・スケーラブルな評価パイプラインを開発する。
- 自動化された発見を大規模な被験者研究(N=1101)で検証する。
- 利用ドメインとターン取りが人間らしい挙動に与える影響を分析する。
提案手法
- 人間らしさを4つのカテゴリ(人格性、身体的具現化、自己参照状態、関係構築)にわたり14の挙動に分解する。
- 4つの利用ドメインと2つのシナリオにわたり、カテゴリごとに30のベースプロンプトを用いて、Target LLMごとに960の5ターン対話を設計する。
- 3つのJudge LLMを用いて、Target LLMのメッセージを13の挙動でラベリングする(1人称代名詞は別にカウント)。
- Judge LLMsおよびサンプル間で多数決によりラベルを集約し、人間らしさのプロファイルを形成する。
- 高頻度と低頻度の人間らしさプロンプトを比較し、Godspeed surveyとAnthroScoreで測定する大規模な人間検証(N=1101)を実施する。
- ドメイン効果と挙動のターンベースの出現を評価する統計検定を実施する。

実験結果
リサーチクエスチョン
- RQ1現在のSOTA LLMsは、ドメインやターン間で同様の人間らしい挙動を示すか?
- RQ2利用ドメイン(友人関係、ライフコーチング、キャリア開発、一般的な計画)は人間らしい挙動の頻度にどう影響するか?
- RQ3人間らしい挙動は主に複数の対話ターンを経て出現するか?
- RQ4自動化された多ターン評価は、人間による人間らしさの知覚と一致するか?
主な発見
- 評価対象のすべてのLLMは、関係構築と1人称代名詞の使用に支配された類似の人間らしいプロファイルを示す。
- 共感度が高い利用ドメイン(友人関係、ライフコーチング)は、人間らしい挙動の頻度が高いことを示している。
- ほとんどの挙動では、50%以上の出現がターン2–5以降に現れ、マルチターンの出現を強調している。
- 人間らしい挙動が発生すると、その後のターンは追加の人間らしい挙動を示す可能性が高い。
- Judge LLMsは人間のラベルと高い一致を示し、AnthroScoreは人間の明示的な人間らしさ知覚と相関する。
- 高頻度の人間らしいプロンプトに曝露された人間の参加者は、明示的および暗黙的な人間らしさ測定値で高く評価した。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。