[論文レビュー] FoodGPT: A Large Language Model in Food Testing Domain with Incremental Pre-training and Knowledge Graph Prompt
FoodGPTは、画像、スキャン文書、そしてプライベートな構造化データからのドメイン知識を注入するためのインクリメンタルプリトレーニングを、中国-L LaMA2-13Bベースモデルに導入し、取得のための外部知識グラフを追加して、食品検査タスクにおける幻覚を低減させる。
Currently, the construction of large language models in specific domains is done by fine-tuning on a base model. Some models also incorporate knowledge bases without the need for pre-training. This is because the base model already contains domain-specific knowledge during the pre-training process. We build a large language model for food testing. Unlike the above approach, a significant amount of data in this domain exists in Scanning format for domain standard documents. In addition, there is a large amount of untrained structured knowledge. Therefore, we introduce an incremental pre-training step to inject this knowledge into a large language model. In this paper, we propose a method for handling structured knowledge and scanned documents in incremental pre-training. To overcome the problem of machine hallucination, we constructe a knowledge graph to serve as an external knowledge base for supporting retrieval in the large language model. It is worth mentioning that this paper is a technical report of our pre-release version, and we will report our specific experimental data in future versions.
研究の動機と目的
- プレーンテキストの外にドメイン知識が存在する食品検査向けの垂直LLMの創出を動機づける。
- 画像/スキャン文書データおよびプライベートな構造化データをベースモデルへ注入するインクリメンタルプリトレーニングワークフローを開発する。
- 外部知識グラフの検索機構を統合して、信頼性の高い低幻覚出力を保証する。
提案手法
- 画像・スキャン文書をテキストに変換するOCRを用い、長文文書を文書固有の章に分割し、文書プレフィックス付きデータを付与する。
- プライベートな構造化データをDatav1とDatav2の2形式にシリアライズし、Datav2はChatGPTを用いた制御されたランダムテキスト生成で生成する;機密フィールドを除去する。
- 用語集、チュートリアル、感情データ、法規、試験問題などの追加データタイプをインクリメンタルプリトレーニングに組み込む。
- Chinese-LLaMA2-13Bをベースモデルとして適用し、インクリメンタルプリトレーニングにはLoRAを使用する。
- LoRAを用いたフォーラムのQ&Aペアと分野の専門家からのシード指示を evol-instruct で拡張した指示でファインチューニングを実施する。
- 構造化データとテキストから外部知識グラフを構築し、取得を用いてFoodGPTへのプロンプトを補強する。
実験結果
リサーチクエスチョン
- RQ1インクリメンタルプリトレーニングをどのように非テキストの知識やプライベートな構造化知識を食品検査のような専門ドメインのLLMに組み込むことができるか。
- RQ2外部知識グラフは機械的幻覚を減らし、ドメイン固有の出力の精度を向上させるか。
- RQ3スキャン文書と構造化データをLLMへ過負荷なく注入する最適なデータ収集・シリアライズ戦略は何か。
主な発見
- FoodGPTは、食品検査ドメインのためにインクリメンタルプリトレーニングとLoRAベースの指示ファインチューニングを施したChinese-LLaMA2-13B上に構築されている。
- OCR駆動のパイプラインは10,000件を超える画像とスキャン文書を処理し、章レベルのラベリングと文書プレフィックス付けで文書間のばらつきを整える。
- 2つのシリアライゼーション方式(Datav1と新しいDatav2)は、プライベートな構造化データを訓練可能な自然言語形式に変換し、潜在的な衝突と繰り返しを減らす。
- 外部知識グラフは取得のために使用され、FoodGPTの応答を支援し、幻覚を緩和する。
- 指示ファインチューニングはフォーラムのQ&Aペアと分野の専門家からのシード指示を用い、evol-instructでプロンプトの多様性を広げる。
- 本論文は、インクリメンタルプリトレーニング、指示ファインチューニング、知識グラフ取得を組み合わせた、ドメイン特化型LLMの完全なパイプラインを提示する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。