QUICK REVIEW

[論文レビュー] Multi-Agent Comedy Club: Investigating Community Discussion Effects on LLM Humor Generation

Shiwei Hong, Lingyao Li|arXiv (Cornell University)|Feb 16, 2026

Humor Studies and Applications被引用数 0

ひとこと要約

本論文は、放送型のコミュニティディスカッションを、ラウンドを跨いで蓄積・取得される社会的記憶として扱うことで、LLMエージェントによる長文 stand-up ユーモア生成を、ディスカッションなしのベースラインと比較して改善することを示す。

ABSTRACT

Prior work has explored multi-turn interaction and feedback for LLM writing, but evaluations still largely center on prompts and localized feedback, leaving persistent public reception in online communities underexamined. We test whether broadcast community discussion improves stand-up comedy writing in a controlled multi-agent sandbox: in the discussion condition, critic and audience threads are recorded, filtered, stored as social memory, and later retrieved to condition subsequent generations, whereas the baseline omits discussion. Across 50 rounds (250 paired monologues) judged by five expert annotators using A/B preference and a 15-item rubric, discussion wins 75.6% of instances and improves Craft/Clarity (Δ = 0.440) and Social Response (Δ = 0.422), with occasional increases in aggressive humor.

研究の動機と目的

公開受容シグナルが反復的な長文ユーモア生成に与える影響を、動機づけつきで定量化する。
ラウンド間の受容を、同一ラウンド内の改稿とは別の条件付けシグナルとして独立評価する。
ディスカッション有効化とベースラインのユーモア生成をラウンド間で比較するための統制されたサンドボックスを構築する。
受容に基づく創作生成の再利用可能なデータセットと評価プロトコルを提供する。

提案手法

35 GPT-4o-miniエージェントからなるクローズドサンドボックスを設計する（5名のパフォーマー、3名の批評家、26名の聴衆、1名の司会。）
公演後のディスカッションを有効（g=1）にするか、スキップ（g=0）にするかを操作する。
エピソード間で記憶アイテムをパフォーマーの文脈へ取得する境界付きソーシャルメモリインターフェースを使用する。
埋め込みベースの類似度スコアを介して取得されるメモリブロックとして、ディスカッションスレッドを記録・再構成する。
人間の評価者による、強制A/B選好と、成果・技巧・社会的受容の15項目ルーブリックを用いた評価を行う。
50ラウンドの固定トピックシーケンスを使用する；パフォーマーは各ラウンドで正確に1つのモノローグを書き、同一ラウンド内での改稿は行わない。

実験結果

リサーチクエスチョン

RQ1ディスカッションを導入した放送型ディスカッションは、ディスカッションのないベースラインと比較して長文ユーモア生成を改善するか？
RQ2受容 grounded 条件付けをラウンド跨ぎで組み込むことによる技巧性・明瞭さ・社会的受容の効果は何か？
RQ3ディスカッション主導の改善に伴うユーモアスタイルや安全性のトレードオフは何か？
RQ4観測された効果はラウンドやパフォーマーのペルソナ間でどれくらい安定しているか？

主な発見

ディスカッション有効化済みの出力は、ペアリング済みインスタンス（A/B選好）で75.6%を獲得。
ディスカッションによる技巧・明瞭さの向上：Δ=0.440（ベースライン比）
ディスカッションによる社会的反応の向上：Δ=0.422（ベースライン比）
即時の笑い（Q1）はディスカッションで改善（平均Δ0.52）
記憶性（Q12）と課題魅力（Q15）は、ディスカッション下で正の変化を示す。
一部のケースで、鋭さが強すぎる/有害なユーモアへとシフトする可能性（HarmShift分析）あり。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。