[论文解读] GeoGalactica: A Scientific Large Language Model in Geoscience
GeoGalactica 是一个 30B 参数的地球科学专用大模型,通过在大规模地球科学语料库上对 Galactica 进行进一步预训练并使用地球科学聚焦的指令数据集进行微调,达到地球科学基准的最先进性能,并向研究用途开源。
Large language models (LLMs) have achieved huge success for their general knowledge and ability to solve a wide spectrum of tasks in natural language processing (NLP). Due to their impressive abilities, LLMs have shed light on potential inter-discipline applications to foster scientific discoveries of a specific domain by using artificial intelligence (AI for science, AI4S). In the meantime, utilizing NLP techniques in geoscience research and practice is wide and convoluted, contributing from knowledge extraction and document classification to question answering and knowledge discovery. In this work, we take the initial step to leverage LLM for science, through a rather straightforward approach. We try to specialize an LLM into geoscience, by further pre-training the model with a vast amount of texts in geoscience, as well as supervised fine-tuning (SFT) the resulting model with our custom collected instruction tuning dataset. These efforts result in a model GeoGalactica consisting of 30 billion parameters. To our best knowledge, it is the largest language model for the geoscience domain. More specifically, GeoGalactica is from further pre-training of Galactica. We train GeoGalactica over a geoscience-related text corpus containing 65 billion tokens, preserving as the largest geoscience-specific text corpus. Then we fine-tune the model with 1 million pairs of instruction-tuning data consisting of questions that demand professional geoscience knowledge to answer. In this technical report, we will illustrate in detail all aspects of GeoGalactica, including data collection, data cleaning, base model selection, pre-training, SFT, and evaluation. We open-source our data curation tools and the checkpoints of GeoGalactica during the first 3/4 of pre-training.
研究动机与目标
- 解决通用大模型在地球科学领域缺乏领域特定知识的问题。
- 组装并整理一个大型地球科学语料库用于模型训练(GeoCorpus)。
- 通过进一步预训练和指令微调开发一个 30B 参数的地球科学大模型(GeoGalactica)。
- 在地球科学基准和人类-地球科学任务上评估性能,并发布数据处理与复现实用工具。
提出的方法
- 在一个大型地球科学语料库(GeoCorpus ~65B 标记;总语料 ~78B 标记)上对 Galactica-30B 进行进一步预训练。
- 使用 GeoSignal V2 指令数据进行有监督微调,以创建 GeoGalactica。
- 开发并应用全面的数据清洗/工具链(PDF 解析、表格/公式提取、Markdown 转换),将多样来源转换为可用于训练的文本。
- 构建 GeoSignal V2,具备领域通用、领域特定和自我指令数据,以在地球科学任务中实现稳健的指令遵循。
- 使用专用标记和格式统一从 PDF 提取(图形、表格、参考文献、公式)。
- 通过 GeoBench、MMLU 以及对比通用大模型的大量人类评估进行评估。
实验结果
研究问题
- RQ1GeoGalactica 在与同规模的通用领域大模型相比,是否能够在地球科学 NLP 任务上取得更优性能?
- RQ2领域特定的进一步预训练和 GeoSignal V2 SFT 对地球科学基准和人类评估的影响是什么?
- RQ3数据清洗和工具学习组件在提高地球科学情境下模型质量与可靠性方面有多大作用?
- RQ4在地球科学中,统一的地球科学大模型在知识检索、推理、问答和论文建议等多样任务上能在多大程度上提供支持?
主要发现
- GeoGalactica 相对于同等规模的模型,在地球科学基准上达到最先进的性能。
- 在人工评估中,GeoGalactica 对抗多种通用大模型(如 ChatGPT、Yiyan、Qianwen、MOSS、ChatGLM)表现出强劲的能力。
- 该工作为前三分之三的预训练提供了开源数据整理工具和预训练检查点。
- 为多样地球科学数据建立了统一的表示空间,便于更广泛地地球科学任务的整合和潜在工具的使用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。