[論文レビュー] GeoGalactica: A Scientific Large Language Model in Geoscience
GeoGalactica は、Large geoscience corpus での Galactica のさらなる事前学習と、geoscience-focused instruction dataset によるファインチューニングを経て作成された、地球科学専門の 30B パラメータ LLM であり、地球科学ベンチマークで最先端の性能を達成し、研究用途のオープンソースとして提供される。
Large language models (LLMs) have achieved huge success for their general knowledge and ability to solve a wide spectrum of tasks in natural language processing (NLP). Due to their impressive abilities, LLMs have shed light on potential inter-discipline applications to foster scientific discoveries of a specific domain by using artificial intelligence (AI for science, AI4S). In the meantime, utilizing NLP techniques in geoscience research and practice is wide and convoluted, contributing from knowledge extraction and document classification to question answering and knowledge discovery. In this work, we take the initial step to leverage LLM for science, through a rather straightforward approach. We try to specialize an LLM into geoscience, by further pre-training the model with a vast amount of texts in geoscience, as well as supervised fine-tuning (SFT) the resulting model with our custom collected instruction tuning dataset. These efforts result in a model GeoGalactica consisting of 30 billion parameters. To our best knowledge, it is the largest language model for the geoscience domain. More specifically, GeoGalactica is from further pre-training of Galactica. We train GeoGalactica over a geoscience-related text corpus containing 65 billion tokens, preserving as the largest geoscience-specific text corpus. Then we fine-tune the model with 1 million pairs of instruction-tuning data consisting of questions that demand professional geoscience knowledge to answer. In this technical report, we will illustrate in detail all aspects of GeoGalactica, including data collection, data cleaning, base model selection, pre-training, SFT, and evaluation. We open-source our data curation tools and the checkpoints of GeoGalactica during the first 3/4 of pre-training.
研究の動機と目的
- 一般的な LLM における地球科学分野の知識不足を解消する。
- モデル学習のための大規模 geoscience コーパスを組み立て・整理する(GeoCorpus)。
- さらなる事前学習と instruction-fine-tuning による 30B パラメータの geoscience LLM(GeoGalactica)を開発する。
- geo 固有のベンチマークと人間地球科学タスクでの性能を評価し、データ処理と再現性のためのツールを公開する。
提案手法
- Large geoscience コーパス(GeoCorpus ~65B tokens; total corpus ~78B tokens)で Galactica-30B のさらなる事前学習を行う。
- GeoSignal V2 instruction データを用いて supervised fine-tuning を実施し GeoGalactica を作成する。
- データの種類が多様なソースを訓練可能なテキストへ変換するため、包括的なデータクリーニング/ツールチェーン(PDF parsing、table/formula extraction、Markdown conversion)を開発・適用する。
- ドメイン一般・ドメイン特化・自己指示データを組み合わせた GeoSignal V2 を構築し、地球科学タスクでの堅牢な指示追従を実現する。
- PDF からの抽出(図、表、参考文献、式)を統一的に扱うため、専用トークンとフォーマットを用いて一貫性を確保する。
- GeoBench、MMLU、そして一般的な LLMs と比較した広範な人間評価で評価する。
実験結果
リサーチクエスチョン
- RQ1GeoGalactica は同程度のスケールの一般領域 LLM と比較して、地球科学NLPタスクで優れた性能を発揮できるか。
- RQ2ドメイン特有のさらなる事前学習と GeoSignal V2 SFT が geo ベンチマークと人間による評価にどのような影響を与えるか。
- RQ3データクリーニングとツール学習の要素が、地球科学文脈でモデルの品質と信頼性をどの程度向上させるか。
- RQ4統一的な地球科学 LLM は、知識検索、推論、QA、論文提案といった多様なタスクを地球科学の文脈でどの程度支援できるか。
主な発見
- GeoGalactica は、同等のスケールのモデルと比較して geoscience benchmarks で最先端の性能を達成している。
- 人間評価では、GeoGalactica は複数の一般 LLM(例:ChatGPT、Yiyan、Qianwen、MOSS、ChatGLM)に対して高い能力を示す。
- 前半の pre-training の最初の 3/4 に相当するデータのオープンソースのデータキュレーションツールと pre-training チェックポイントを提供している。
- 地球科学データの多様な表現空間を統一的に確立し、より広範な地球科学タスクの統合とツール利用の可能性を可能にしている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。