[论文解读] Tamil-Llama: A New Tamil Language Model Based on Llama 2
扩展 LLaMA 2,添加 16k 条 Tamil 令牌,使用 LoRA 实现高效训练,并发布面向 Tamil 的 Alpaca/OpenOrca 指令数据以提升 Tamil 生成与理解。
Language modeling has witnessed remarkable advancements in recent years, with Large Language Models (LLMs) like ChatGPT setting unparalleled benchmarks in human-like text generation. However, a prevailing limitation is the underrepresentation of languages like Tamil in these cutting-edge models, leading to suboptimal performance in diverse linguistic contexts. This paper addresses this lacuna, enhancing the open-source LLaMA model with an addition of 16,000 Tamil tokens, aiming to achieve superior text generation and comprehension in the Tamil language. We strategically employ the LoRA methodology for efficient model training on a comprehensive Tamil corpus, ensuring computational feasibility and model robustness. Moreover, we introduce a Tamil-translated version of the Alpaca dataset and a subset of the OpenOrca dataset tailored for instruction fine-tuning. Our results showcase significant performance improvements in Tamil text generation, with potential implications for the broader landscape of LLMs in Indian languages. We further underscore our commitment to open research by making our models, datasets, and code publicly accessible, fostering further innovations in language modeling.
研究动机与目标
- 通过在 LLaMA 2 词汇表中增加 Tamil 令牌来解决开源大型语言模型对 Tamil 的 representation 不充分问题。
- 使用 LoRA 在 Tamil 语料上高效训练 Tamil-LLaMA 模型。
- 创建 Tamil 译制的 Alpaca 和 OpenOrca 指令数据集以用于 Tamil 微调。
- 在指令遵循、推理、翻译和 NLU 任务上评估 Tamil-LLaMA,以展示相对于基线模型的改进。
提出的方法
- 通过使用 Tamil SentencePiece 分词器,将 16,000 个 Tamil 令牌加入 LLaMA 2 词汇表扩展。
- 将原始 32,000 令牌词汇表与 16,000 个 Tamil 令牌结合,形成 48,000 令牌的词汇表。
- 在 Tamil 语料上进行因果语言建模的预训练(在各设定中约 6–12 GB),使用 fp16 和 LoRA 适配器。
- 通过 LoRA 在 FP16 下,使用翻译后的 Alpaca 和 OpenOrca 数据集加上来自 Tamil 维基百科的数据集,对指令遵循模型进行微调。
- 使用基于 GPT-4 的评分并辅以人工评审,在 120+ 条 Tamil 指令提示上进行评估。
- 将 7B 和 13B 的 Tamil-LLaMA 模型与 gpt-3.5-turbo 在多项任务上进行比较。
实验结果
研究问题
- RQ1在 LLaMA 2 中添加 16,000 个 Tamil 令牌是否能显著提升 Tamil 文本生成与理解?
- RQ2基于 LoRA 的预训练与微调是否能产生适用于指令遵循任务的高效、鲁棒的 Tamil-LLaMA 模型?
- RQ3 Tamil 译制的 Alpaca 和 OpenOrca 数据集是否比基线模型提升 Tamil 指令微调效果?
- RQ4与以英语为中心的 LLaMA 变体相比,Tamil-LLaMA 模型在 Tamil NLU 与翻译基准上的表现如何?
主要发现
- Tamil-LLaMA 模型在基于 GPT-4 的 Tamil 指令遵循任务上优于基线 LLaMA 2。
- 在基于 GPT-4 的评估中,Tamil-LLaMA-7B 的综合分数(63.83)高于 gpt-3.5-turbo(61.33)。
- Tamil-LLaMA-13B 的综合 GPT-4 分数为 71.17,超过 gpt-3.5-turbo(61.33)。
- 在 NLU 基准上,Tamil-LLaMA 在 IndicSentiment(81.3% 对比随机 50.5%)和 IndicGLUE(80.12%)显著优于原始 LLaMA。
- 翻译任务显示 Tamil-to-English 表现强劲,Tamil-LLaMA 在 Tamil 翻译方面超过原始 LLaMA 2 70B,且接近 gpt-3.5-turbo。
- 与较大模型的 Tamil 生成相比,代码生成与推理任务有所提升,但数学推理仍然具有挑战性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。