QUICK REVIEW

[论文解读] Quokka: An Open-source Large Language Model ChatBot for Material Science

Xianjun Yang, Stephen D. Wilson|arXiv (Cornell University)|Jan 2, 2024

AI in Service Interactions被引用 11

一句话总结

Quokka 开源了两种基于 LLaMA-2 的模型（7B 和 13B），在超过 1 million 材料科学文章上进行预训练，并针对社区使用发布了具备聊天能力的变体。

ABSTRACT

This paper presents the development of a specialized chatbot for materials science, leveraging the Llama-2 language model, and continuing pre-training on the expansive research articles in the materials science domain from the S2ORC dataset. The methodology involves an initial pretraining phase on over one million domain-specific papers, followed by an instruction-tuning process to refine the chatbot's capabilities. The chatbot is designed to assist researchers, educators, and students by providing instant, context-aware responses to queries in the field of materials science. We make the four trained checkpoints (7B, 13B, with or without chat ability) freely available to the research community at https://github.com/Xianjun-Yang/Quokka.

研究动机与目标

促使创建一个面向材料科学的开源领域特定大型语言模型，以帮助研究人员、教育工作者和学生。
展示在大型材料科学语料库（S2ORC）上进行持续预训练以注入领域知识。
展示指令微调，使模型与通用与材料科学特定提示对齐。
提供可自由获取的检查点，以加速材料文本处理领域的研究和下游应用。

提出的方法

以 LLaMA-2 基础模型（7B 和 13B）为起点，在 S2ORC 的超过 1 million 篇材料科学文章上进行持续预训练。
混合 10% 的通用 RedPajama 数据，以在领域特定预训练期间减轻灾难性遗忘。
在预训练中使用 bf16、flash-attention 和 DeepSpeed FSDP，使用 8 A100 GPU；每个模型训练一个 epoch。
随后使用来自 LIMA 和 HoneyBee 数据集的 3344 条唯一指令，以及作者添加的提示，进行指令微调。
使用 15 个 epoch 进行微调，学习率为 1e-4，1024 个最大 tokens，采用余弦调度器，使用 4 A100 GPU。

实验结果

研究问题

RQ1在大型材料科学语料库上进行持续预训练是否能提升 LLaMA-2 模型的领域特定理解？
RQ2使用通用与材料科学指令的指令微调是否能为专家问题带来更好的对齐？
RQ3开源的 Quokka 检查点是否能成为材料科学自然语言处理任务和聊天互动的有效基础？
RQ4材料科学中领域自适应 LLM 的资源需求和训练动态是什么？

主要发现

Quokka-7B 与 Quokka-13B 显示预训练损失在下降，其中 13B 模型实现了更低的最终困惑度。
指令微调在 15 个 epoch 后将损失降低至接近零。
Quokka-7B-Chat 和 Quokka-13B-Chat 使得就材料科学问题进行对话成为可能，并且对敏感话题给出安全拒绝。
作者向研究社区发布了四个开源检查点。
训练时间在指定硬件上大致为每个模型数十小时（例如，预训练使用 8 A100 GPU；指令微调使用 4 A100 GPU）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。