Skip to main content
QUICK REVIEW

[논문 리뷰] Synthetic Rewriting as a Quality Multiplier: Evidence from Portuguese Continued Pretraining

Thales Sales Almeida, Rodrigo Nogueira|arXiv (Cornell University)|2026. 03. 25.
Natural Language Processing Techniques인용 수 0
한 줄 요약

본 연구는 합성 문서 재작성이 포르투갈어 지속적 사전학습 성능을 향상시키며, 특히 고품질 데이터에서 시작하고 더 큰 모델 규모에서 더 큰 효과를 보인다는 것을 보여준다. 이는 재작성이 데이터 양의 대체제가 아니라 품질 곱하기로 작용한다는 것을 시사한다.

ABSTRACT

Synthetic data generation through document rewriting has emerged as a promising technique for improving language model pretraining, yet most studies focus on English and do not systematically control for the quality of the source data being rewritten. We present a controlled study of how synthetic rewriting interacts with source data quality in the context of Portuguese continued pretraining. Starting from ClassiCC-PT, a Portuguese corpus annotated with STEM and Educational quality scores, we construct two 10B-token subsets at different quality levels and rewrite each into four styles using a 7B instruction-tuned model, producing approximately 40B tokens of synthetic data per condition. We train two English-centric base models (1.1B and 7B parameters) on each condition and evaluate on PoETa V2, a comprehensive 44-task Portuguese benchmark. At the 7B scale, rewriting high-quality data yields a +3.4 NPM gain over the same data unmodified, while rewriting low-quality data provides only +0.5 NPM. At the 1.1B scale, this interaction is weaker, with unmodified low-quality data performing comparably to rewritten high-quality data. Our results demonstrate that synthetic rewriting acts primarily as a quality multiplier rather than a substitute for data curation, and that this effect is scale-dependent.

연구 동기 및 목표

  • 포르투갈어 지속적 사전학습에서 고정 토큰 예산 하에 합성 재작성이 원천 데이터 품질과 어떻게 상호 작용하는지 평가한다.
  • 재작성이 데이터 선별의 대체제가 아니라 품질 곱하기로 작용하는지 판단한다.
  • 모델 규모(1.1B 대 7B)가 재작성의 작업 간 효과에 어떤 변화를 주는지 분석한다.

제안 방법

  • ClassiCC-PT에서 고품질(STEM/Educational >2.5)과 저품질(0.5–2.0)의 두 개의 10B-토큰 소스 하위집합을 구성한다.
  • 각 문서를 4가지 스타일로 재작성하고 7B 지시문 미세조정 모델을 사용하여 조건당 약 30B 토큰을 생성한 뒤, 교육용으로 원문 10B 토큰과 결합하여 총 40B를 만든다.
  • 고정 예산 하에 각 조건에서 두 개의 영어 중심 기본 모델(1.1B TinyLLaMA 및 7B LLaMA-2)을 사전 학습한다.
  • 모든 모델을 PoETa V2(44개의 포르투갈어 과제)에서 Normalized Performance Metric(NPM)을 사용하여 평가한다.
  • 두 모델 규모에서 데이터 품질 및 재작성 효과를 분리하기 위해 각 조건 간 성능을 비교한다.
Figure 1: Average NPM in PoETa V2 for the 7B model across four experimental conditions as a function of training tokens.
Figure 1: Average NPM in PoETa V2 for the 7B model across four experimental conditions as a function of training tokens.

실험 결과

연구 질문

  • RQ1고품질 데이터에서 시작할 때 합성 재작성이 포르투갈어 지속적 사전학습의 이득을 저품질 데이터에서 시작하는 경우보다 증폭시키는가?
  • RQ2모델 규모(1.1B 대 7B)가 재작성의 효과와 데이터 품질과의 상호작용에 어떤 영향을 미치는가?
  • RQ3재작성의 이점이 작업 범주 전반에 걸쳐 균일한가, 아니면 지식 집약적이거나 문화적으로 기반한 작업에 집중되는가?
  • RQ4재작성은 단순히 토큰 다양성을 증가시키는가, 아니면 데이터 품질이 관찰된 이득을 주도하는가?

주요 결과

  • 7B 규모에서 고품질 데이터를 재작성하면 동일한 데이터를 수정하지 않은 경우보다 +3.4 NPM의 이득을 얻는다.
  • 7B 규모에서 저품질 데이터를 재작성해도 동일 데이터 대비 +0.5 NPM의 이득에 그친다.
  • 1.1B 규모에서는 품질-재작성 상호작용이 더 약하고 일관성이 낮으며, 수정하지 않은 저품질 데이터가 재작성된 고품질 데이터에 비해 비슷한 성능을 보인다.
  • 고품질 재작성 데이터는 학습을 더 오래 지속시키며(edu + rewrites의 경우 30B 토큰에서 수렴이 관찰되지 않음).
  • 범주 수준 분석에서 품질 효과가 가장 큰 것은 Exams 및 Brazil-specific tasks에서 나타나며; Ethics는 모든 조건에서 재작성으로 이득을 얻고; General Knowledge는 재작성으로 약간 해로울 수 있으며; Social Media 과제는 저품질 데이터에서도 높은 성능을 보인다.
(a) Brazil
(a) Brazil

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.