QUICK REVIEW

[논문 리뷰] CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

Yixin Nie, Lin Guan|arXiv (Cornell University)|2026. 03. 02.

ICT in Developing Communities인용 수 0

한 줄 요약

CharacterFlywheel은 메타의 소셜 앱 전반에서 매력적이고 조정 가능한 LLM을 개선하기 위한 반복적이고 생산 규모의 플라이휠을 설명하며, 데이터 선별, 보상 모델링, SFT, RL 및 오프라인/온라인 평가를 통해 일관된 온라인 참여 증가와 향상된 조정 가능성을 달성합니다.

ABSTRACT

This report presents CharacterFlywheel, an iterative flywheel process for improving large language models (LLMs) in production social chat applications across Instagram, WhatsApp, and Messenger. Starting from LLaMA 3.1, we refined models across 15 generations using data from both internal and external real-user traffic. Through continuous deployments from July 2024 to April 2025, we conducted controlled 7-day A/B tests showing consistent engagement improvements: 7 of 8 newly deployed models demonstrated positive lift over the baseline, with the strongest performers achieving up to 8.8% improvement in engagement breadth and 19.4% in engagement depth. We also observed substantial gains in steerability, with instruction following increasing from 59.2% to 84.8% and instruction violations decreasing from 26.6% to 5.8%. We detail the CharacterFlywheel process which integrates data curation, reward modeling to estimate and interpolate the landscape of engagement metrics, supervised fine-tuning (SFT), reinforcement learning (RL), and both offline and online evaluation to ensure reliable progress at each optimization step. We also discuss our methods for overfitting prevention and navigating production dynamics at scale. These contributions advance the scientific rigor and understanding of LLMs in social applications serving millions of users.

연구 동기 및 목표

Instagram, WhatsApp, Messenger, Web 전반의 소셜 채팅 LLM에서 참여 폭과 참여 깊이를 향상시키기.
데이터 선별, 보상 모델링, 감독 학습 미세조정(SFT), 강화 학습(RL)을 통합하는 확장 가능하고 반복적인 워크플로우를 개발하기.
생성 배포에서 문자 특성의 조정 가능성을 향상하고 안전/승인 위반을 감소시키기.
오프라인 및 온라인 방법을 통한 견고한 평가를 보장하여 반복적 개선을 유도하기.

제안 방법

2024년 7월부터 2025년 4월까지 배포하는 15세대 모델로 반복 개발 주기.
내부 피드백과 선별된 생산 데이터를 결합한 데이터 파이프라인으로 학습 세트를 구축하기.
브래들리-테리(Bra dley-Terry) 선호 모델(포인트와이즈 및 페어와이즈) 및 보조 사용자 신호 모델을 포함한 보상 모델.
학습 후 RL 목표를 위한 온정책 비슷한 데이터를 만들기 위한 거부 샘플링(Rejection sampling).
Llama 3.1 70B 위에 감독 학습 미세조정(SFT)을 수행하고, 그 뒤 DPO 및 온라인 RL(GRPO 변형)을 통해 참여 최적화를 수행.
피처 특성(길이, 이모지 사용 등)에 과적합되는 것을 방지하기 위한 아티팩트 완화.
커뮤니티 벤치마크와 사람 간 비교를 통한 오프라인 평가; 참여 증가를 측정하기 위한 트래픽의 10%를 대상으로 한 온라인 A/B 테스트.
다층적 평가 및 상류 프라이버시 점검을 포함한 안전 및 프라이버시 제어.
캐릭터 상호작용의 일부로 이미지 생성 기능을 포함하여 참여를 높이기.

실험 결과

연구 질문

RQ1 iterativ e, production-scale flywheel이 소셜 채팅 LLM의 참여 지표를 신뢰성 있게 개선하는 데 어떻게 사용될 수 있는가?
RQ2생산 환경에서의 보상 모델링과 RL 전략이 참여 폭/깊이 및 조정 가능성에 미치는 영향은 무엇인가?
RQ3오프라인 및 온라인 평가가 모델 선택 및 배포 결정에 어떻게 정렬되는가?
RQ4수백만 명의 사용자를 위한 소셜 애플리케이션에서 LLM을 확장하기 위한 필수 안전 및 프라이버시 메커니즘은 무엇인가?
RQ5데이터 선별과 거부 샘플링이 표면적 신호에 과적합되지 않도록 학습에 어떤 영향을 미치는가?

주요 결과

7개의 신규 배포 모델 중 8개에서 베이스라인 대비 7일 A/B 테스트에서 참여 폭과 깊이 모두에서 양의 상승을 보였음.
가장 강한 모델은 참여 폭에서 최대 8.8%, 참여 깊이에서 19.4%의 개선을 달성.
지시 준수(instruction following)가 59.2%에서 84.8%로 개선되어 조정 가능성이 향상됨.
지시 위반(instruction violations)이 26.6%에서 5.8%로 감소하여 조정 가능성이 향상됨.
CharacterFlywheel 모델의 15세대 개발은 2024년 1월부터 2025년 9월까지 진행되었고, 공개 대규모 롤아웃은 2024년 7월 29일에 이뤄짐.
오프라인 보상 모델 승률과 온라인 참여 지표 모두 배포 결정의 지침으로 사용됨.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.