QUICK REVIEW

[논문 리뷰] Synthetic Rewriting as a Quality Multiplier: Evidence from Portuguese Continued Pretraining

Thales Sales Almeida, Rodrigo Nogueira|arXiv (Cornell University)|2026. 03. 25.

Natural Language Processing Techniques인용 수 0

한 줄 요약

본 연구는 합성 문서 재작성이 포르투갈어 지속적 사전학습 성능을 향상시키며, 특히 고품질 데이터에서 시작하고 더 큰 모델 규모에서 더 큰 효과를 보인다는 것을 보여준다. 이는 재작성이 데이터 양의 대체제가 아니라 품질 곱하기로 작용한다는 것을 시사한다.

ABSTRACT

Synthetic data generation through document rewriting has emerged as a promising technique for improving language model pretraining, yet most studies focus on English and do not systematically control for the quality of the source data being rewritten. We present a controlled study of how synthetic rewriting interacts with source data quality in the context of Portuguese continued pretraining. Starting from ClassiCC-PT, a Portuguese corpus annotated with STEM and Educational quality scores, we construct two 10B-token subsets at different quality levels and rewrite each into four styles using a 7B instruction-tuned model, producing approximately 40B tokens of synthetic data per condition. We train two English-centric base models (1.1B and 7B parameters) on each condition and evaluate on PoETa V2, a comprehensive 44-task Portuguese benchmark. At the 7B scale, rewriting high-quality data yields a +3.4 NPM gain over the same data unmodified, while rewriting low-quality data provides only +0.5 NPM. At the 1.1B scale, this interaction is weaker, with unmodified low-quality data performing comparably to rewritten high-quality data. Our results demonstrate that synthetic rewriting acts primarily as a quality multiplier rather than a substitute for data curation, and that this effect is scale-dependent.

연구 동기 및 목표

포르투갈어 지속적 사전학습에서 고정 토큰 예산 하에 합성 재작성이 원천 데이터 품질과 어떻게 상호 작용하는지 평가한다.
재작성이 데이터 선별의 대체제가 아니라 품질 곱하기로 작용하는지 판단한다.
모델 규모(1.1B 대 7B)가 재작성의 작업 간 효과에 어떤 변화를 주는지 분석한다.

제안 방법

ClassiCC-PT에서 고품질(STEM/Educational >2.5)과 저품질(0.5–2.0)의 두 개의 10B-토큰 소스 하위집합을 구성한다.
각 문서를 4가지 스타일로 재작성하고 7B 지시문 미세조정 모델을 사용하여 조건당 약 30B 토큰을 생성한 뒤, 교육용으로 원문 10B 토큰과 결합하여 총 40B를 만든다.
고정 예산 하에 각 조건에서 두 개의 영어 중심 기본 모델(1.1B TinyLLaMA 및 7B LLaMA-2)을 사전 학습한다.
모든 모델을 PoETa V2(44개의 포르투갈어 과제)에서 Normalized Performance Metric(NPM)을 사용하여 평가한다.
두 모델 규모에서 데이터 품질 및 재작성 효과를 분리하기 위해 각 조건 간 성능을 비교한다.

Figure 1: Average NPM in PoETa V2 for the 7B model across four experimental conditions as a function of training tokens.

실험 결과

연구 질문

RQ1고품질 데이터에서 시작할 때 합성 재작성이 포르투갈어 지속적 사전학습의 이득을 저품질 데이터에서 시작하는 경우보다 증폭시키는가?
RQ2모델 규모(1.1B 대 7B)가 재작성의 효과와 데이터 품질과의 상호작용에 어떤 영향을 미치는가?
RQ3재작성의 이점이 작업 범주 전반에 걸쳐 균일한가, 아니면 지식 집약적이거나 문화적으로 기반한 작업에 집중되는가?
RQ4재작성은 단순히 토큰 다양성을 증가시키는가, 아니면 데이터 품질이 관찰된 이득을 주도하는가?

주요 결과

7B 규모에서 고품질 데이터를 재작성하면 동일한 데이터를 수정하지 않은 경우보다 +3.4 NPM의 이득을 얻는다.
7B 규모에서 저품질 데이터를 재작성해도 동일 데이터 대비 +0.5 NPM의 이득에 그친다.
1.1B 규모에서는 품질-재작성 상호작용이 더 약하고 일관성이 낮으며, 수정하지 않은 저품질 데이터가 재작성된 고품질 데이터에 비해 비슷한 성능을 보인다.
고품질 재작성 데이터는 학습을 더 오래 지속시키며(edu + rewrites의 경우 30B 토큰에서 수렴이 관찰되지 않음).
범주 수준 분석에서 품질 효과가 가장 큰 것은 Exams 및 Brazil-specific tasks에서 나타나며; Ethics는 모든 조건에서 재작성으로 이득을 얻고; General Knowledge는 재작성으로 약간 해로울 수 있으며; Social Media 과제는 저품질 데이터에서도 높은 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.