QUICK REVIEW

[논문 리뷰] Multi-Agent Comedy Club: Investigating Community Discussion Effects on LLM Humor Generation

Shiwei Hong, Lingyao Li|arXiv (Cornell University)|2026. 02. 16.

Humor Studies and Applications인용 수 0

한 줄 요약

논문은 방송형 커뮤니티 토론이 사회 기억으로 저장되어 라운드를 넘겨 검색되며, 무대 개그 생성의 긴 형식에서 LLM 에이전트의 토론 없음 기준선에 비해 개선된다는 것을 보여준다.

ABSTRACT

Prior work has explored multi-turn interaction and feedback for LLM writing, but evaluations still largely center on prompts and localized feedback, leaving persistent public reception in online communities underexamined. We test whether broadcast community discussion improves stand-up comedy writing in a controlled multi-agent sandbox: in the discussion condition, critic and audience threads are recorded, filtered, stored as social memory, and later retrieved to condition subsequent generations, whereas the baseline omits discussion. Across 50 rounds (250 paired monologues) judged by five expert annotators using A/B preference and a 15-item rubric, discussion wins 75.6% of instances and improves Craft/Clarity (Δ = 0.440) and Social Response (Δ = 0.422), with occasional increases in aggressive humor.

연구 동기 및 목표

공개된 수용 신호가 반복적이고 긴 형식의 유머 생성에 미치는 영향에 대해 동기 부여하고 정량화한다.
라운드 간 수용을 구분하는 조건 신호로서의 고립된 평가(동시 반응 수정에서 구분)
토론 가능성과 기본 유머 생성 간의 라운드별 비교를 위한 제어된 샌드박스 구축
수용 기반 창의적 생성을 위한 재사용 가능한 데이터셋 및 평가 프로토콜 제공

제안 방법

35 GPT-4o-mini 에이전트(5 명 퍼포머, 3 명 비평가, 26 명 청중, 1 명 진행자)로 구성된 폐쇄형 샌드박스 설계
공연 후 토론 활성화 여부를 g=1으로 하거나 건너뛰기 g=0으로 조작
라운드 간 퍼포머 맥락으로 기억 아이템을 검색해 회상하는 경계형 사회 기억 인터페이스 사용
임베딩 기반 유사도 점수를 통해 검색된 기억 블록으로 토론 스레드를 기억으로 로그화 및 재구성
강제 A/B 선호도 및 15항목 루브릭으로 인간 평가자와의 쌍 비교 출력 평가(결과, 구성, 사회적 수용 포함)
50 라운드의 고정 주제 시퀀스 사용; 퍼포머는 라운드당 정확히 하나의 독백 작성; 라운드 내 수정 없음

실험 결과

연구 질문

RQ1방송형 커뮤니티 토론이 토론 없는 기준선에 비해 장기 형식 유머 생성을 개선하는가?
RQ2라운드 간 수용 기반 조건화가 미치는 구성, 명확성, 사회적 수용 효과는 무엇인가?
RQ3토론 주도 개선과 함께 유머 스타일이나 안전성에서 어떤trade-off가 있는가?
RQ4관찰된 효과가 라운드와 퍼포머 페르소나에 따라 얼마나 안정적인가?

주요 결과

토론 가능 출력이 쌍 대조에서 75.6%의 승리를 기록(A/B 선호).
토론에 의한 구성/명확성 증가: Δ = 0.440(기준선 대비).
토론에 의한 사회적 반응 증가: Δ = 0.422(기준선 대비).
즉각적 재미 지수(Q1)가 토론으로 개선됨(평균 0.52 증가).
기억성(Q12) 및 작업 매력(Q15)이 토론 하에서 양의 변화 보임.
일부 사례에서 날카롭거나 해로운 유머로의 시프트(HarmShift 분석 가능성) 존재

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.