[논문 리뷰] Tucano 2 Cool: Better Open Source LLMs for Portuguese
이 논문은 Tucano 2를 공개 포르투갈어 LLM의 가족으로 출시합니다(0.5B–3.5B 매개변수)로, 큰 큐레이션 코퍼스(GigaVerbo-v2)와 합성 보강을 통해, 평가 체계와 후훈련 데이터를 포함하여 재현 가능한 포르투갈어 NLP 개발을 촉진하기 위해 모두 공개적으로 출시됩니다.
We present Tucano 2, a fully open suite of large language models (LLMs) with 0.5-3.7 billion parameters, designed to address certain gaps in open-source development for Portuguese LLMs. Following our previous works, we now extend our dataset, GigaVerbo-v2, to a new degree of quality and scale, while also introducing a new synthetic dataset, GigaVerbo-v2 Synth, aimed at filling missing gaps in GigaVerbo-v2, and two post-training datasets, GigaVerbo-v2 SFT and GigaVerbo-v2 Preferences, that allow Portuguese LLMs to be trained in domains like retrieval augmented generation, coding, tool use, chain-of-thought reasoning, and many other domains of interest. Through extensive ablation studies, we design both pretraining and continual pretraining recipes for the Tucano 2 suite (Base, Instruct, and Think), which achieve state-of-the-art performance on several Portuguese-language modeling benchmarks. We also extend and refine the evaluation harness introduced in our earlier work, yielding a comprehensive evaluation suite that provides strong signals across different pretraining, continual pretraining, and post-training regimes. All artifacts associated with Tucano 2 are openly released, including training recipes, logs, and source code, ensuring that our work is reproducible, accessible, and extendable by the broader Portuguese NLP community.
연구 동기 및 목표
- 더 큰 양의 고품질 데이터와 재현 가능한 학습 레시피로 공개 포르투갈어 LLM 개발을 촉진합니다.
- 참조 가능한 데이터셋과 학습 전략으로 포르투갈어 LLM 개발의 재현성을 강화합니다.
- 개방형 포르투갈어 기반 모델 개발의 확장성 및 접근성을 높입니다.
제안 방법
- 교육 및 독성 주석이 포함된 ~320B-token 포르투갈어 코퍼스 GigaVerbo-v2를 구성합니다.
- 도메인 격차를 해소하기 위한 9.3B-token 합성 보강인 GigaVerbo-v2 Synth를 만듭니다.
- 데이터를 필터링하기 위한 교육, 독성, 지시 품질 보조 주석 모델을 개발합니다.
- 코딩, 도구 사용, 구조화된 출력, 추론 과제를 포함한 다양한 지도 학습 파인튜닝(SFT) 코퍼스를 구성합니다.
- 정렬을 지원하기 위한 쌍방향 추론 선호도 데이터셋(GigaVerbo-v2 Preferences)을 공개합니다.
- 전처리, 지속적 전처리, 후훈련 체제에서 0.5B에서 3.5B 매개변수의 포르투갈어 기초 모델을 학습합니다.

실험 결과
연구 질문
- RQ1언어 특화 고품질의 포르투갈어 코퍼스가 작은 규모에서 중간 규모의 개방형 LLM 성능에 어떤 영향을 미치는가?
- RQ2포르투갈어에서 교육적 및 독성 주석 데이터와 합성 보강이 모델 품질과 안전성에 어떤 영향을 주는가?
- RQ3다양한 SFT 및 이중 추론 선호도가 포르투갈어 LLM의 지시 이행 및 추론 능력을 개선할 수 있는가?
- RQ4전처리, 지속적 전처리, 후훈련 단계가 포르투갈어 벤치마크에서 Tucano 2 모델에 대해 어떻게 비교되는가?
- RQ5데이터, 레시피, 평가를 완전하게 공개하는 투명한 스택이 포르투갈어 NLP 커뮤니티에 어떤 가능성을 열어주는가?
주요 결과
- Tucano 2 모델(0.5B–3.5B)은 동일 규모의 이전 공개 포르투갈어 벤치마크를 여러 지표에서 능가합니다.
- GigaVerbo-v2는 372M 문서로 약 320B 토큰에 도달하고, 필터링 후 318B 토큰, 37%의 교육 콘텐츠 및 독성 필터링이 적용된 별도의 하위 집합으로 구성됩니다.
- GigaVerbo-v2 Synth는 영역 격차를 완화하고 성능을 향상시키기 위해 9.3B 합성 토큰을 추가합니다.
- LLM 판단에서 추출된 학습 데이터 필터(교육 품질 및 독성 분류기)가 휴리스틱 기반 필터링보다 코퍼스 품질을 개선합니다.
- 포괄적인 평가 허브는 초기 및 후기 훈련 단계와 장-context 평가를 지원합니다.
- 모든 데이터셋, 모델, 학습 레시피, 평가 코드는 재현성을 위해 완전히 공개됩니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.