[論文レビュー] Tucano 2 Cool: Better Open Source LLMs for Portuguese
この論文は Tucano 2 を公開します。大規模な厳選コーパス(GigaVerbo-v2)と合成データ拡張、評価ハーネス、ポストトレーニングデータを含む、オープンなポルトガル語L L M のファミリーで、再現性の高いポルトガル語NLPの進展を目的としています。
We present Tucano 2, a fully open suite of large language models (LLMs) with 0.5-3.7 billion parameters, designed to address certain gaps in open-source development for Portuguese LLMs. Following our previous works, we now extend our dataset, GigaVerbo-v2, to a new degree of quality and scale, while also introducing a new synthetic dataset, GigaVerbo-v2 Synth, aimed at filling missing gaps in GigaVerbo-v2, and two post-training datasets, GigaVerbo-v2 SFT and GigaVerbo-v2 Preferences, that allow Portuguese LLMs to be trained in domains like retrieval augmented generation, coding, tool use, chain-of-thought reasoning, and many other domains of interest. Through extensive ablation studies, we design both pretraining and continual pretraining recipes for the Tucano 2 suite (Base, Instruct, and Think), which achieve state-of-the-art performance on several Portuguese-language modeling benchmarks. We also extend and refine the evaluation harness introduced in our earlier work, yielding a comprehensive evaluation suite that provides strong signals across different pretraining, continual pretraining, and post-training regimes. All artifacts associated with Tucano 2 are openly released, including training recipes, logs, and source code, ensuring that our work is reproducible, accessible, and extendable by the broader Portuguese NLP community.
研究の動機と目的
- より大規模で高品質なデータと再現性のある学習レシピでオープンなポルトガル語LLM開発を促進する。
提案手法
- 約320Bトークンの教育・毒性注釈付きポルトガル語コーパスである GigaVerbo-v2 を組成。
- GigaVerbo-v2 Synth を作成し、9.3Bトークンの合成拡張でドメインギャップを補う。
- データをフィルタリングするための教育・毒性・命令品質の補助注釈モデルを開発。
- コーディング、ツール使用、構造化出力、推論タスクを含む多様な監督付きファインチューニング(SFT)コーパスを編成。
- 整列を支援するデュアル推論の好みデータセット(GigaVerbo-v2 Preferences)を公開。
- 0.5B 〜 3.5B パラメータのオープンポルトガル語基金モデルを、前訓練、継続前訓練、ポスト訓練の体制で学習する。

実験結果
リサーチクエスチョン
- RQ1小〜中規模のオープンLLM性能に対する言語特化型の高品質ポルトガル語コーパスの影響はどうなるか。
- RQ2教育・毒性注釈付きデータおよび合成拡張がポルトガル語モデルの品質と安全性に与える影響は何か。
- RQ3多様なSFTとデュアル推論の好みはポルトガル語LLMの指示遵守と推論を改善できるか。
- RQ4前訓練、継続前訓練、ポスト訓練段階は Tucano 2 モデルをポルトガル語ベンチマークでどう比較されるか。
- RQ5透明で完全に公開されたスタック(データ、レシピ、評価)はポルトガル語NLPコミュニティに何を可能にするか。
主な発見
- Tucano 2 モデル(0.5B〜3.5B)は、同程度のサイズの既存オープンポルトガル語ベースラインを複数のベンチマークで上回る。
- GigaVerbo-v2 は約320Bトークンを達成し、372M件の文書とフィルタリング後の318Bトークン、うち教育コンテンツが37%、別個の毒性フィルタ済みサブセットを含む。
- GigaVerbo-v2 Synth は9.3Bの合成トークンを追加してドメインギャップを緩和し、性能を向上させる。
- 学習済みデータフィルタ(教育品質と毒性分類器)は、LLM判断から蒸留され、ヒューリスティックのみのフィルタリングよりコーパス品質を改善する。
- 包括的な評価ハーネスは早期・遅延学習段階と長文コンテキスト評価をサポートする。
- すべてのデータセット、モデル、学習レシピ、評価コードは再現性のために完全に公開されている。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。