[论文解读] GPT-4 as Evaluator: Evaluating Large Language Models on Pest Management in Agriculture
本文评估 GPT-3.5、GPT-4 与 FLAN-T5 在农业病虫害管理建议生成上的表现,使用 GPT-4 作为评估者,在多种提示方法下衡量语言质量和可执行性准确性,采用基于指令的提示实现 72% 的行动准确性。
In the rapidly evolving field of artificial intelligence (AI), the application of large language models (LLMs) in agriculture, particularly in pest management, remains nascent. We aimed to prove the feasibility by evaluating the content of the pest management advice generated by LLMs, including the Generative Pre-trained Transformer (GPT) series from OpenAI and the FLAN series from Google. Considering the context-specific properties of agricultural advice, automatically measuring or quantifying the quality of text generated by LLMs becomes a significant challenge. We proposed an innovative approach, using GPT-4 as an evaluator, to score the generated content on Coherence, Logical Consistency, Fluency, Relevance, Comprehensibility, and Exhaustiveness. Additionally, we integrated an expert system based on crop threshold data as a baseline to obtain scores for Factual Accuracy on whether pests found in crop fields should take management action. Each model's score was weighted by percentage to obtain a final score. The results showed that GPT-3.4 and GPT-4 outperform the FLAN models in most evaluation categories. Furthermore, the use of instruction-based prompting containing domain-specific knowledge proved the feasibility of LLMs as an effective tool in agriculture, with an accuracy rate of 72%, demonstrating LLMs' effectiveness in providing pest management suggestions.
研究动机与目标
- 展示使用大型语言模型在农业中生成病虫害管理建议的可行性。
- 提出一种多维度评估方法,以 GPT-4 作为评估者,对连贯性、一致性、流畅性、相关性、可理解性和穷尽性,以及事实准确性进行评估。
- 展示基于指令的提示和领域知识对决策准确性的影响(约 72%)。
- 比较 GPT-3.5 和 GPT-4 在病虫害管理决策中的差异。
提出的方法
- 评估 GPT-3.5、GPT-4 和 FLAN-T5 在源自专家系统数据的病虫害管理提示上的表现。
- 使用专家系统作为病虫害管理决策的事实准确性基线(非化学措施)。
- 生成 50 个带标签的害虫情景(25 种害虫,2 种密度变体),以形成每个模型的 50 条提示。
- 应用四种提示技术(零-shot、少量样本、基于指令、自我一致性)来生成回答。
- 使用 GPT-4(作为评估者)对回答在连贯性、一致性、流畅性、相关性、可理解性、穷尽性进行评分,并判断行动必要性(0/1)以评估准确性。
- 将语言质量分(各占 10%)和准确性(40%)加权,计算出最终的 100 点分数。
实验结果
研究问题
- RQ1大型语言模型是否能够在不同密度和环境条件下生成与作物害虫相关的病虫害管理建议?
- RQ2提示方法如何影响病虫害管理建议的语言质量和可操作性?
- RQ3作为评估者的 GPT-4 是否在判断是否需要采取病虫害管理行动方面表现出可靠的准确性?
- RQ4在这一农业特定任务中,GPT-3.5、GPT-4 与 FLAN-T5 的性能差异有哪些?
- RQ5与其他提示策略相比,基于指令的提示对病虫害管理决策准确性有何影响?
主要发现
- 在大多数评估类别中,GPT-3.5 与 GPT-4 的表现优于 FLAN 模型。
- GPT-4 与 GPT-3.5 获得高语言质量分数,GPT-4 在某些维度达到接近完美的流畅性。
- 基于指令的提示提高了准确性和整体性能;在若干指标中,带有指令提示的 GPT-3.5 表现最佳,有时甚至超过 GPT-4。
- 融入害虫阈值和受影响作物的基于指令的提示能带来更好的行动决策。
- 评估揭示了 GPT-3.5 与 GPT-4 在病虫害管理决策方面的细微差异。
- 总体而言,使用基于指令的提示时,系统在病虫害管理决策中的准确度约为 72%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。