QUICK REVIEW

[논문 리뷰] Tucano 2 Cool: Better Open Source LLMs for Portuguese

Nicholas Kluge Corrêa, Aniket Sen|arXiv (Cornell University)|2026. 03. 03.

Topic Modeling인용 수 0

한 줄 요약

이 논문은 Tucano 2를 공개 포르투갈어 LLM의 가족으로 출시합니다(0.5B–3.5B 매개변수)로, 큰 큐레이션 코퍼스(GigaVerbo-v2)와 합성 보강을 통해, 평가 체계와 후훈련 데이터를 포함하여 재현 가능한 포르투갈어 NLP 개발을 촉진하기 위해 모두 공개적으로 출시됩니다.

ABSTRACT

We present Tucano 2, a fully open suite of large language models (LLMs) with 0.5-3.7 billion parameters, designed to address certain gaps in open-source development for Portuguese LLMs. Following our previous works, we now extend our dataset, GigaVerbo-v2, to a new degree of quality and scale, while also introducing a new synthetic dataset, GigaVerbo-v2 Synth, aimed at filling missing gaps in GigaVerbo-v2, and two post-training datasets, GigaVerbo-v2 SFT and GigaVerbo-v2 Preferences, that allow Portuguese LLMs to be trained in domains like retrieval augmented generation, coding, tool use, chain-of-thought reasoning, and many other domains of interest. Through extensive ablation studies, we design both pretraining and continual pretraining recipes for the Tucano 2 suite (Base, Instruct, and Think), which achieve state-of-the-art performance on several Portuguese-language modeling benchmarks. We also extend and refine the evaluation harness introduced in our earlier work, yielding a comprehensive evaluation suite that provides strong signals across different pretraining, continual pretraining, and post-training regimes. All artifacts associated with Tucano 2 are openly released, including training recipes, logs, and source code, ensuring that our work is reproducible, accessible, and extendable by the broader Portuguese NLP community.

연구 동기 및 목표

더 큰 양의 고품질 데이터와 재현 가능한 학습 레시피로 공개 포르투갈어 LLM 개발을 촉진합니다.
참조 가능한 데이터셋과 학습 전략으로 포르투갈어 LLM 개발의 재현성을 강화합니다.
개방형 포르투갈어 기반 모델 개발의 확장성 및 접근성을 높입니다.

제안 방법

교육 및 독성 주석이 포함된 ~320B-token 포르투갈어 코퍼스 GigaVerbo-v2를 구성합니다.
도메인 격차를 해소하기 위한 9.3B-token 합성 보강인 GigaVerbo-v2 Synth를 만듭니다.
데이터를 필터링하기 위한 교육, 독성, 지시 품질 보조 주석 모델을 개발합니다.
코딩, 도구 사용, 구조화된 출력, 추론 과제를 포함한 다양한 지도 학습 파인튜닝(SFT) 코퍼스를 구성합니다.
정렬을 지원하기 위한 쌍방향 추론 선호도 데이터셋(GigaVerbo-v2 Preferences)을 공개합니다.
전처리, 지속적 전처리, 후훈련 체제에서 0.5B에서 3.5B 매개변수의 포르투갈어 기초 모델을 학습합니다.

Figure 1: Impact of Educational & Synthetic Data (46B tokens). The Edu+Synth and Edu mixtures achieve the best performance across benchmarks, substantially outperforming the Non-Edu mixture and the Tucano-2b4 baseline. The percentage values represent the relative increase/decrease in performance wit

실험 결과

연구 질문

RQ1언어 특화 고품질의 포르투갈어 코퍼스가 작은 규모에서 중간 규모의 개방형 LLM 성능에 어떤 영향을 미치는가?
RQ2포르투갈어에서 교육적 및 독성 주석 데이터와 합성 보강이 모델 품질과 안전성에 어떤 영향을 주는가?
RQ3다양한 SFT 및 이중 추론 선호도가 포르투갈어 LLM의 지시 이행 및 추론 능력을 개선할 수 있는가?
RQ4전처리, 지속적 전처리, 후훈련 단계가 포르투갈어 벤치마크에서 Tucano 2 모델에 대해 어떻게 비교되는가?
RQ5데이터, 레시피, 평가를 완전하게 공개하는 투명한 스택이 포르투갈어 NLP 커뮤니티에 어떤 가능성을 열어주는가?

주요 결과

Tucano 2 모델(0.5B–3.5B)은 동일 규모의 이전 공개 포르투갈어 벤치마크를 여러 지표에서 능가합니다.
GigaVerbo-v2는 372M 문서로 약 320B 토큰에 도달하고, 필터링 후 318B 토큰, 37%의 교육 콘텐츠 및 독성 필터링이 적용된 별도의 하위 집합으로 구성됩니다.
GigaVerbo-v2 Synth는 영역 격차를 완화하고 성능을 향상시키기 위해 9.3B 합성 토큰을 추가합니다.
LLM 판단에서 추출된 학습 데이터 필터(교육 품질 및 독성 분류기)가 휴리스틱 기반 필터링보다 코퍼스 품질을 개선합니다.
포괄적인 평가 허브는 초기 및 후기 훈련 단계와 장-context 평가를 지원합니다.
모든 데이터셋, 모델, 학습 레시피, 평가 코드는 재현성을 위해 완전히 공개됩니다.

Figure 2: Pretraining loss curve across 195,000 steps ( $\sim$ 408B tokens).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.