[论文解读] Multi-Agent Comedy Club: Investigating Community Discussion Effects on LLM Humor Generation
论文表明广播式的社区讨论(作为社会记忆存储并在回合之间检索)相比无讨论基线,能提升LLM代理在长篇段子幽默生成方面的表现。
Prior work has explored multi-turn interaction and feedback for LLM writing, but evaluations still largely center on prompts and localized feedback, leaving persistent public reception in online communities underexamined. We test whether broadcast community discussion improves stand-up comedy writing in a controlled multi-agent sandbox: in the discussion condition, critic and audience threads are recorded, filtered, stored as social memory, and later retrieved to condition subsequent generations, whereas the baseline omits discussion. Across 50 rounds (250 paired monologues) judged by five expert annotators using A/B preference and a 15-item rubric, discussion wins 75.6% of instances and improves Craft/Clarity (Δ = 0.440) and Social Response (Δ = 0.422), with occasional increases in aggressive humor.
研究动机与目标
- 激励并量化公众反馈信号如何影响迭代的、长篇幽默生成。
- 单独评估跨回合的反馈作为条件信号,与回合内修订分离。
- 构建受控沙箱,在跨回合比较讨论驱动与基线的幽默生成。
- 提供可复用的数据集和评估协议,用于基于反馈的创造性生成。
提出的方法
- 设计一个封闭沙箱,包含35个 GPT-4o-mini 代理(5 位表演者,3 位评论者,26 位观众,1 位主持人)
- 操控表演后讨论是否启用(g=1)或跳过(g=0)
- 使用有界的社会记忆接口,在回合之间把记忆项检索到表演者上下文
- 将讨论线索记录并重建为通过嵌入式相似度分数检索的记忆块
- 使用强制性的 A/B 偏好和涵盖结果、技艺、社会接受度等 15 项指标的评分表,对成对输出进行人工评估
- 采用固定主题序列的 50 回合;表演者每回合恰好写一段独白;每回合内不进行修订。
实验结果
研究问题
- RQ1与无讨论基线相比,广播式社区讨论是否提升长篇幽默生成?
- RQ2跨回合将反馈条件化对技艺、清晰度和社会接受度的影响如何?
- RQ3讨论驱动的改进是否伴随在幽默风格或安全性方面的权衡?
- RQ4在不同回合与表演者角色设定下,观察到的效果是否稳定?
主要发现
- 讨论驱动的输出在成对实例中胜出 75.6%(A/B 偏好)。
- 讨论带来技艺/清晰度提升:相对基线的 Delta = 0.440。
- 讨论带来社会反应提升:相对基线的 Delta = 0.422。
- 即时愉悦感(Q1)在讨论下提高(平均 Delta 0.52)。
- 记忆性(Q12)与任务吸引力(Q15)在讨论下显示积极变化。
- 在某些实例中,存在向更前卫/有害幽默倾向的潜在偏移(HarmShift 分析)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。