[論文レビュー] GPT-4 as Evaluator: Evaluating Large Language Models on Pest Management in Agriculture
この論文は、農業における害虫管理アドバイスの生成にGPT-3.5、GPT-4、FLAN-T5を評価し、複数の prompting 方法でGPT-4を評価者として用い、言語品質と実用的な正確さを測定し、指示ベースの prompting で72% の行動正確性を達成した。
In the rapidly evolving field of artificial intelligence (AI), the application of large language models (LLMs) in agriculture, particularly in pest management, remains nascent. We aimed to prove the feasibility by evaluating the content of the pest management advice generated by LLMs, including the Generative Pre-trained Transformer (GPT) series from OpenAI and the FLAN series from Google. Considering the context-specific properties of agricultural advice, automatically measuring or quantifying the quality of text generated by LLMs becomes a significant challenge. We proposed an innovative approach, using GPT-4 as an evaluator, to score the generated content on Coherence, Logical Consistency, Fluency, Relevance, Comprehensibility, and Exhaustiveness. Additionally, we integrated an expert system based on crop threshold data as a baseline to obtain scores for Factual Accuracy on whether pests found in crop fields should take management action. Each model's score was weighted by percentage to obtain a final score. The results showed that GPT-3.4 and GPT-4 outperform the FLAN models in most evaluation categories. Furthermore, the use of instruction-based prompting containing domain-specific knowledge proved the feasibility of LLMs as an effective tool in agriculture, with an accuracy rate of 72%, demonstrating LLMs' effectiveness in providing pest management suggestions.
研究の動機と目的
- 農業における害虫管理アドバイスを生成するためにLLMを使用する実現可能性を示す。
- 一貫性、整合性、流暢さ、関連性、理解性、網羅性、さらに事実的正確性を評価するためGPT-4を評価者とする多次元評価手法を提案する。
- 指示ベースの prompting とドメイン知識が意思決定の正確さに与える影響を示す(約72%)。
- 害虫管理の意思決定におけるGPT-3.5とGPT-4の違いを比較する。
提案手法
- 専門システムデータに基づく害虫管理プロンプトについてGPT-3.5、GPT-4、FLAN-T5を評価する。
- 非化学的手段の害虫管理決定の事実正確性のベースラインとして専門システムを使用する。
- 50 のラベル付き pest シナリオを生成(25 種の害虫、2 密度バリアント)で各モデルあたり 50 プロンプトを作成。
- 4 つの prompting 技法(ゼロショット、 few-shot、指示ベース、セルフコンシステンシー)を適用して応答を生成。
- GPT-4(評価者として)を用いて、応答を一貫性、整合性、流暢さ、関連性、理解容易さ、網羅性で評価し、正確さのための行動-必要性(0/1)を判断する。
- 言語品質スコアを各10%、正確さを40%として重み付けし、最終的な100点スコアを計算する。
実験結果
リサーチクエスチョン
- RQ1LLMs は作物害虫に関連する害虫管理アドバイスを、異なる密度と環境条件下で生成できるか?
- RQ2prompting 方法は害虫管理提案の言語品質と実用性にどのように影響するか?
- RQ3評価者としてのGPT-4 は、害虫管理アクションが必要かどうかを決定する際に信頼できる正確さを示すか?
- RQ4この農業特有のタスクにおけるGPT-3.5、GPT-4、FLAN-T5 の性能差は何か?
- RQ5指示ベースの prompting は、他の prompting 戦略と比べて害虫管理の意思決定の正確さにどのような影響を与えるか?
主な発見
- GPT-3.5 and GPT-4 outperform FLAN models in most evaluation categories.
- GPT-4 and GPT-3.5 achieve high linguistic-quality scores, with GPT-4 reaching near-perfect fluency in some dimensions.
- Instruction-based prompting improves accuracy and overall performance; in several metrics, GPT-3.5 with instruction-based prompting performs best, sometimes surpassing GPT-4.
- Instruction-based prompts that incorporate pest thresholds and affected crops yield better action decisions.
- The evaluation reveals nuanced differences between GPT-3.5 and GPT-4 in pest-management decision-making.
- Overall, the system achieved about 72% accuracy in pest-management decisions when using instruction-based prompting.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。