[논문 리뷰] GPT-4 as Evaluator: Evaluating Large Language Models on Pest Management in Agriculture
본 논문은 농업에서 해충 관리 조언 생성을 대상으로 GPT-3.5, GPT-4, 및 FLAN-T5를 평가하고, 여러 프롬팅 방법에 걸쳐 평가자로서 GPT-4를 활용하여 언어적 품질과 실행 가능성 정확도를 측정하며, 지시 기반 프롬핑으로 72%의 실행 가능성 정확도를 달성했다.
In the rapidly evolving field of artificial intelligence (AI), the application of large language models (LLMs) in agriculture, particularly in pest management, remains nascent. We aimed to prove the feasibility by evaluating the content of the pest management advice generated by LLMs, including the Generative Pre-trained Transformer (GPT) series from OpenAI and the FLAN series from Google. Considering the context-specific properties of agricultural advice, automatically measuring or quantifying the quality of text generated by LLMs becomes a significant challenge. We proposed an innovative approach, using GPT-4 as an evaluator, to score the generated content on Coherence, Logical Consistency, Fluency, Relevance, Comprehensibility, and Exhaustiveness. Additionally, we integrated an expert system based on crop threshold data as a baseline to obtain scores for Factual Accuracy on whether pests found in crop fields should take management action. Each model's score was weighted by percentage to obtain a final score. The results showed that GPT-3.4 and GPT-4 outperform the FLAN models in most evaluation categories. Furthermore, the use of instruction-based prompting containing domain-specific knowledge proved the feasibility of LLMs as an effective tool in agriculture, with an accuracy rate of 72%, demonstrating LLMs' effectiveness in providing pest management suggestions.
연구 동기 및 목표
- 농업에서 해충 관리 조언을 생성하는 데 LLM의 타당성을 demonstrate하기.
- 정합성, 일관성, 유창성, 관련성, 이해 용이성, 포괄성, 그리고 사실적 정확성까지를 평가하는 다차원 평가 접근법을 GPT-4를 평가자로 사용하여 제안하기.
- 지시 기반 프롬핑과 도메인 지식이 결정 정확도에 미치는 영향(~72%)를 보여주기.
- 해충 관리 의사결정에서 GPT-3.5와 GPT-4 간의 차이를 비교하기.]
- method: [
제안 방법
- Expert-system 데이터를 기반으로 한 해충 관리 프롬프트에 대해 GPT-3.5, GPT-4, 및 FLAN-T5를 평가합니다.
- 비화학적 조치를 포함한 해충 관리 의사 결정의 사실적 정확도 기준으로 전문가 시스템을 사용합니다.
- 모델당 50개의 라벨이 붙은 해충 시나리오(25종 해충, 밀도 변형 2개)를 생성하여 50개의 프롬프트를 형성합니다.
- 네 가지 프롬핑 기법(제로샷, 파샷, 지시 기반, 자기 일관성)을 적용하여 응답을 생성합니다.
- 응답의 일관성, 일관성, 유창성, 관련성, 이해 가능성, 포괄성, 정확성의 필요성 판단(0/1) 및 정확성을 평가하기 위해 평가자로서 GPT-4를 활용합니다.
- 언어 품질 점수(각 10%)와 정확도(40%)를 가중하여 최종 100점 점수를 계산합니다.]
- research_questions: [
실험 결과
연구 질문
- RQ1다양한 밀도 및 환경 조건에서 작물 해충과 관련된 해충 관리 조언을 LLM이 생성할 수 있는가?
- RQ2프롬핑 방법이 해충 관리 제안의 언어적 품질과 실행 가능성에 어떤 영향을 미치는가?
- RQ3평가자로서의 GPT-4가 해충 관리 조치 필요 여부의 정확도 판단에 신뢰할 수 있는가?
- RQ4이 농업 특화 작업에서 GPT-3.5, GPT-4, 및 FLAN-T5 간의 성능 차이는 무엇인가?
- RQ5지시 기반 프롬핑이 다른 프롬핑 전략과 비교하여 해충 관리 의사결정 정확도에 어떤 영향을 미치는가?
주요 결과
- GPT-3.5와 GPT-4가 대부분의 평가 카테고리에서 FLAN 모델보다 우수합니다.
- GPT-4와 GPT-3.5는 높은 언어 품질 점수를 달성하고, GPT-4는 일부 차원에서 거의 완벽한 유창성을 달성합니다.
- 지시 기반 프롬핑은 정확도와 전반적 성능을 향상시키며, 여러 지표에서 지시 기반 프롬핑을 사용하는 GPT-3.5가 때로 GPT-4를 능가하는 경우도 있습니다.
- 해충 임계치와 영향을 받는 작물을 포함하는 지시 기반 프롬핑은 더 나은 실행 결정으로 이어집니다.
- 평가는 GPT-3.5와 GPT-4 간의 해충 관리 의사결정에 대한 미묘한 차이를 보여줍니다.
- 전반적으로 지시 기반 프롬핑을 사용할 때 해충 관리 의사결정의 정확도가 약 72%에 달했습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.