[논문 리뷰] Solar Open Technical Report
Solar Open은 주로 한국어와 영어에 대해 데이터 합성, 이중언어 커리큘럼, 확장 가능한 추론 및 다도메인 정렬을 가능하게 하는 RL 지향 프레임워크(SnapPO)와 함께 학습된 102B 매개변수 이중언어 Mixture-of-Experts LLM이다.
We introduce Solar Open, a 102B-parameter bilingual Mixture-of-Experts language model for underserved languages. Solar Open demonstrates a systematic methodology for building competitive LLMs by addressing three interconnected challenges. First, to train effectively despite data scarcity for underserved languages, we synthesize 4.5T tokens of high-quality, domain-specific, and RL-oriented data. Second, we coordinate this data through a progressive curriculum jointly optimizing composition, quality thresholds, and domain coverage across 20 trillion tokens. Third, to enable reasoning capabilities through scalable RL, we apply our proposed framework SnapPO for efficient optimization. Across benchmarks in English and Korean, Solar Open achieves competitive performance, demonstrating the effectiveness of this methodology for underserved language AI development.
연구 동기 및 목표
- underservedLanguages(한국어)에서의 데이터 격차를 해소하기 위해 대규모 합성 데이터를 생성하고 이중언어 커리큘럼을 구축한다.
- 한국어 중심 역량과 일반 추론에 최적화된 102B 매개변수 MoE 모델을 개발한다.
- 추론과 정렬을 위한 다도메인 최적화를 확장하기 위해 RL-가능한 학습 프레임워크(SnapPO)를 제안한다.
- 특정 목표의 사전 학습 및 중간 학습 전략을 통해 영어와 한국어 벤치마크에서의 효율성과 경쟁력 있는 성능을 보여준다.
- 대용량 MoE 사전 학습의 처리량을 높이기 위한 엔지니어링 최적화를 일반 상용 HPC 자원에서 달성한다.
제안 방법
- 희소한 실제 데이터 보충을 위해 사전 학습 및 중간 학습에 사용할 4.5T 토큰의 고품질 합성 데이터를 생성한다.
- 영어와 한국어 데이터를 균형 있게 배치하고 품질 임계값 및 도메인 커버리지를 20T 토큰 규모의 계획으로 다층적으로 구성하는 이중언어 커리큘럼의 다단계를 구현한다.
- 총 102.6B 매개변수, 토큰당 12B 활성 매개변수, 128 개의 경유 전문가 중 8명을 라우팅하는 희소 Mixture-of-Experts Transformer를 채용한다(하나의 공유 전문가 포함).
- TorchTitan 학습 파이프라인에 통합된 일반 품질, 교육 품질, 임베딩 기반 주제 필터링의 3법 다층 데이터 필터링 프레임워크를 사용한다.
- 데이터 생성, 보상 계산, 학습을 순환적으로 분리하여 확장 가능한 다도메인 RL을 가능하게 하는 사이클릭 오프 폴리시 RL 프레임워크인 SnapPO를 개발·배포한다.
- 프레임워크 선택(TorchTitan), 다노드 스케일링(HSDP), 데이터 로딩, 하드웨어별 튜닝을 통해 더 높은 처리량을 달성하기 위한 엔지니어링 최적화를 수행한다(최종 단계에서 최대 7,200 TPS).

실험 결과
연구 질문
- RQ1서비스 언어가 소외된 한국어와 같은 경우에 이중언어 커리큘럼과 공격적인 합성 데이터 생성으로 데이터 격차를 해소하면서 영어 성능을 유지할 수 있는가?
- RQ2대규모 한국어-영어 MoE 모델이 다국어 및 도메인 특화 작업에서 영어 중심 기준과 비교해 어떤 성능을 보이는가?
- RQ3SnapPO RL 프레임워크가 무거운 인프라 비용 없이도 확장 가능한 다목적 최적화(추론, 안전, 문화적 정렬)를 가능하게 하는가?
- RQ4102B 매개변수 MoE 모델에서 효율적 이중언어 추론과 긴 컨텍스트 작업을 지원하는 토크나이저 및 아키텍처 선택은 무엇인가?
주요 결과
- Solar Open은 영어 및 한국어 벤치마크에서 프런티어 모델과 대등한 성능을 더 낮은 토큰 예산으로 달성한다(예: GLM-4.5-Base의 영어 10.7T 및 한국어 17.8T 토큰 대비 유사한 성능).
- oversampling이 적용된 한국어 중심 토크나이저는 한국어 압축 및 추론 효율이 우수하다(예: 다양한 설정에서 4.69-4.83 바이트/토큰 대 비토큰 대비 기준선 대비 우수).
- MoE 설계(총 102.6B, 토큰당 12B 활성, 128 경유 전문가)와 로드밸런싱 및 dtype 처리로 대규모 하드웨어에서 안정적 학습 및 높은 처리량을 달성한다.
- 합성 데이터를 64%까지 활용하는 2단계의 저품질에서 고품질 커리큘럼은 2단계에서 강한 교차언어 성능을 달성하면서도 사전 학습 토큰 수를 크게 줄여준다.
- 엔지니어링 최적화(Hybrid Sharding Data Parallel, 라우터 dtype 복원, 로드밸런싱 손실 최적화, FP8/FP16 혼합, 데이터 로딩 샤딩)는 처리량을 크게 향상시켜 최대 7,200 TPS를 달성한다.
- 중간 학습에는 RL 지향 추론 경로 합성을 포함하여 원자 추론 연산을 풍부하게 하고 이후 RL 기반 구성적 추론에서 재앙적 망각 없이 가능하게 한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.