[논문 리뷰] Email in the Era of LLMs
논문은 HR Simulator™를 제시하며, 인간–LLM 이메일 작성 연구를 위한 게임으로 인간+LLM 하이브리드의 이점과 모델 크기가 이메일 판단, 어조, 재치를 어떻게 좌우하는지 밝혀낸다.
Email communication increasingly involves large language models (LLMs), but we lack intuition on how they will read, write, and optimize for nuanced social goals. We introduce HR Simulator, a game where communication is the core mechanic: players play as a Human Resources officer and write emails to solve socially challenging workplace scenarios. An analysis of 600+ human and LLM emails with LLMs-as-judge reveals evidence for larger LLMs becoming more homogenous in their email quality judgments. Under LLM judges, humans underperform LLMs (e.g., 23.5% vs. 48-54% success rate), but a human+LLM approach can outperform LLM-only (e.g., from 40% to nearly 100% in one scenario). In cases where models' email preferences disagree, emergent tact is a plausible explanation: weaker models prefer less tactful strategies while stronger models prefer more tactful ones. Regarding tone, LLM emails are more formal and empathetic while human emails are more varied. LLM rewrites make human emails more formal and empathetic, but models still struggle to imitate human emails in the low empathy, low formality quadrant, which highlights a limitation of current post-training approaches. Our results demonstrate the efficacy of communication games as instruments to measure communication in the era of LLMs, and posit human-LLM co-writing as an effective form of communication in that future.
연구 동기 및 목표
- LLM이 직장 환경에서 사회적 목표를 이해하고 이메일을 읽고 쓰며 최적화하는 방법을 이해하는 데 동기를 부여한다.
- varied scenarios에서 인간, AI, 하이브리드 이메일 작성의 측정 및 비교를 위해 HR Simulator™를 도입한다.
- 모델 규모가 커짐에 따라 LLM 판단자의 이메일 품질에 대한 의견이 수렴되는지 특징지으며, 이에 대한 분석을 제공한다.
- AI 판단하에서 어조, 공감, 형식성, 재치가 이메일 효과에 어떤 영향을 미치는지 탐구한다.
- 향후 인간–LLM 협업이 이메일 커뮤니케이션에 미칠 시사점을 제시한다.
제안 방법
- HR Simulator™를 개발하여 플레이어가 인사 담당자로서 직장 시나리오를 해결하기 위한 이메일을 작성하게 한다.
- 게임 내 심판으로 GPT-4o를 사용하여 다섯 가지 시나리오에 걸친 수신자와 결과를 시뮬레이션한다.
- 작은 모델에서 큰 모델에 이르기까지 다수의 LLM 심판들이 평가한 600건이 넘는 인간 및 LLM 이메일을 분석한다.
- 동일 시나리오 내에서 이메일에 대한 심판 쌍의 선호도를 비교하기 위해 Elo 순위를 적용한다.
- 어조, 공감, 형식성을 이메일에 주석 달아 해석하고 모델 선호와의 정렬 여부를 해석한다.
- 통계적 사후 분석으로 심판 크기와 합의가 합격률과 인지된 품질에 어떤 영향을 미치는지 평가한다.

실험 결과
연구 질문
- RQ1사회적 도전 과제인 직장 시나리오에서 인간과 LLM 이메일의 성공률은 어떻게 비교되는가?
- RQ2더 큰 LLM이 이메일 품질에 대한 판단을 더 균일하게 수렴하는가, 그리고 이것이 AI가 작성한 콘텐츠에 대한 선호도에 어떤 영향을 미치는가?
- RQ3인간+LLM 협업이 인간이나 LLM 중 어느 하나를 능가하여 효과적인 이메일을 생산할 수 있는가?
- RQ4모델 판단에서 어조, 공감, 형식성은 어떤 역할을 하는가?
- RQ5현재의 사후 학습 접근 방식에 시스템적 격차가 있어 공감이 낮고 형식성이 낮은 이메일을 생산하는가?
주요 결과
- 사람만으로는 평균적으로 23.5%의 합격률을 달성하는 반면, 상위 LLM은 48–54%에 이른다; 일부 시나리오에서 인간+LLM 재작성은 두 가지를 능가할 수 있다.
- LLM 심판은 LLM이 작성한 이메일을 인간이 작성한 것보다 높게 평가하며, 특정 사례에서 인간+LLM 이메일이 두 가지를 능가할 수 있다.
- 모델 크기가 커짐에 따라 LLM 심판의 품질 판단은 더 동질적으로 변하며 합의 Krippendorff의 알파 값이 약 0.5에 도달한다.
- 약한 심판은 더 직접적인 이메일을 선호하고, 강한 심판은 더 재치 있고 미묘한 이메일을 선호하는 현상을 나타내며 이를 emergent tact라 한다.
- LLM 재작성은 인간의 이메일을 더 형식적이고 공감적으로 만드는 경향이 있어 고공감도, 고형식성 구간으로 이동시키지만, LLM은 낮은 공감도, 낮은 형식성을 모방하는 데 어려움을 보인다.
- 인간–LLM 하이브리드 이점은 재작성된 인간 이메일이 GPT-4o의 선호 재택 범위에 들어갈 수 있어 여러 심판의 합격률(예: GPT-4o 및 Claude 3.5 Haiku가 Scenario 1에서) 을 향상시키기 때문입니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.