[論文レビュー] Solar Open Technical Report
Solar Openは、主に韓国語と英語に焦点を当てたデータ合成、二言語カリキュラム、そしてスケーラブルな推論と多ドメイン整合性を可能にするRL志向フレームワーク(SnapPO)に重点を置く102Bパラメータの双方向混合専門家モデル(Mixture-of-Experts, MoE)です。
We introduce Solar Open, a 102B-parameter bilingual Mixture-of-Experts language model for underserved languages. Solar Open demonstrates a systematic methodology for building competitive LLMs by addressing three interconnected challenges. First, to train effectively despite data scarcity for underserved languages, we synthesize 4.5T tokens of high-quality, domain-specific, and RL-oriented data. Second, we coordinate this data through a progressive curriculum jointly optimizing composition, quality thresholds, and domain coverage across 20 trillion tokens. Third, to enable reasoning capabilities through scalable RL, we apply our proposed framework SnapPO for efficient optimization. Across benchmarks in English and Korean, Solar Open achieves competitive performance, demonstrating the effectiveness of this methodology for underserved language AI development.
研究の動機と目的
- underserved Languages(韓国語)のデータ不足を、大規模な合成データと二言語カリキュラムの生成で解決する。
- 韓国語中心の能力と一般的な推論に最適化された102BパラメータMoEモデルを開発する。
- 推論と整合性のための多ドメイン最適化を拡張可能にするRL対応トレーニングフレームワーク(SnapPO)を提案する。
- ターゲットを絞った事前学習と中間学習戦略を通じて英語・韓国語のベンチマークで効率性と競争力のある性能を示す。
- 商用HPCリソース上での高スループットを達成する大規模MoE事前学習のエンジニアリング最適化を提供する。
提案手法
- 事前学習および中間学習を補完するために4.5Tトークンの高品質な合成データを生成する。
- 英語と韓国語データのバランスを取る多段階の二言語カリキュラムを実装し、品質閾値と20Tトークン規模の計画をカバーする領域を設計する。
- 102.6B総パラメータ、トークンあたり12Bのアクティブパラメータを持つスパースMixture-of-Experts Transformerを採用し、1つの共有 Experts を含む8の128エキスパートをルーティングする。
- TorchTitanトレーニングパイプラインに統合された3手法の多層データフィルタリング枠組み(一般品質、教育品質、埋め込みベースのトピックフィルタリング)を使用する。
- データ生成、報酬計算、トレーニングを分離するサイクル型オフポリシーRLフレームワークSnapPOを開発・導入し、推論と整合性のためのスケーラブルな多ドメインRLを実現する。
- フレームワーク選択(TorchTitan)、マルチノードスケーリング(HSDP)、データロード、および機械的最適化を通じて、最終ステップで最大7,200 TPSのスループットを達成するためのエンジニアリング最適化を実施する。

実験結果
リサーチクエスチョン
- RQ1韓国語などの恵まれない言語のデータギャップを埋めつつ、英語の性能を維持できるか、二言語カリキュラムと積極的な合成データ生成は可能か。
- RQ2大規模な韓英MoEモデルは、英語中心のベースラインと比較して多言語・領域特化タスクでどのような性能を示すか。
- RQ3SnapPO RLフレームワークは、推論・安全性・文化的整合性などの複数目的最適化を、過大なインフラコストなしに実現できるか。
- RQ4102BパラメータMoEモデルにおいて、効率的な二言語推論と長文文脈タスクを支えるトークナイザとアーキテクチャ設計は何か。
主な発見
- Solar Openは、英語・韓国語のベンチマークで、トークン予算を抑えつつ最先端モデルと競合する性能を示す(例:GLM-4.5-Baseの英語10.7T、韓国語17.8Tトークン相当の性能に匹敵)。
- 過剰サンプリングを備えた専用の韓国語中心トークナイザは、韓国語の圧縮・推論効率を向上させる(例:4.69-4.83 バイト/トークン、設定によりベースラインと比較)。
- MoE設計(総量102.6B、トークンあたり12B活性、128エキスパートをルーティング)とロードバランシング・dtype処理により、大規模ハードウェアで安定した学習と高いスループットを実現。
- Phase 2.B/Cで合成データを最大64%まで使用した多段階の低品質から高品質カリキュラムは、前学習トークンの必要量を大幅に削減しつつ強力な跨言語性能を達成。
- エンジニアリング最適化(Hybrid Sharding Data Parallel、ルータdtype復元、ロードバランシング損失最適化、FP8/FP16混在、データロードのシャーディング)は、最大7,200 TPSのスループット向上をもたらす。
- 中間学習にはRL指向の推論軌道の合成を含み、原子レベルの推論操作を強化し、後のRLベースの組成推論が壊れずに可能になる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。