QUICK REVIEW

[論文レビュー] EcoAssistant: Using LLM Assistant More Affordably and Accurately

Jieyu Zhang, Ranjay Krishna|arXiv (Cornell University)|Oct 3, 2023

Topic Modeling被引用数 7

ひとこと要約

EcoAssistant は、(1) 自動コード実行環境での反復、(2) 安価から高価へのアシスタントの階層化、(3) 過去の成功解を文脈デモンストレーションとして参照することにより、コード駆動型クエリへの回答をより安価かつ正確に行えるようにする。

ABSTRACT

Today, users ask Large language models (LLMs) as assistants to answer queries that require external knowledge; they ask about the weather in a specific city, about stock prices, and even about where specific locations are within their neighborhood. These queries require the LLM to produce code that invokes external APIs to answer the user's question, yet LLMs rarely produce correct code on the first try, requiring iterative code refinement upon execution results. In addition, using LLM assistants to support high query volumes can be expensive. In this work, we contribute a framework, EcoAssistant, that enables LLMs to answer code-driven queries more affordably and accurately. EcoAssistant contains three components. First, it allows the LLM assistants to converse with an automatic code executor to iteratively refine code or to produce answers based on the execution results. Second, we use a hierarchy of LLM assistants, which attempts to answer the query with weaker, cheaper LLMs before backing off to stronger, expensive ones. Third, we retrieve solutions from past successful queries as in-context demonstrations to help subsequent queries. Empirically, we show that EcoAssistant offers distinct advantages for affordability and accuracy, surpassing GPT-4 by 10 points of success rate with less than 50% of GPT-4's cost.

研究の動機と目的

外部 API 呼び出しを必要とするコード駆動質問応答の課題を動機づける。
LLM ベースのコード生成と実行のコストを抑えつつ精度を向上させるシステムを提案する。
自動でコード実行機と反復する方法、アシスタントの階層化を導入し、過去の解をデモンストレーションとして再利用する方法を紹介する。
Places、Weather、Stock の複数ドメインで、これらの手法がコストと成功率に与える影響を評価する。

提案手法

LLM アシスタントがコード実行機と対話し、生成されたコードを反復的に洗練させる2-agent 会話フレームワークを導入する。
最も安価な LLM から開始し、必要に応じて高価なものへバックオフするアシスタント階層を採用する。
成功したクエリ-コードのペアをベクタデータベースに保存し、最も類似した過去の解をプロンプトデモンストレーションとして取得することで解決策のデモンストレーションを実装する。

実験結果

リサーチクエスチョン

RQ1反復的なコード実行とコード実行機で、コード駆動 QA の正確性を向上させることができるか。
RQ2アシスタント階層は精度を犠牲にせずにコストを削減できるか。
RQ3過去の成功解をデモンストレーションとして取り入れることで性能と速度が向上するか。
RQ4階層とデモンストレーションの組み合わせは、異なるデータセット（Places、Weather、Stock）全体でどのような影響を与えるか。

主な発見

より強力で高価なモデルは、単独で使用した場合に成功率を高める。
CoT プロンプティングは GPT-3.5-turbo を改善するが、必ずしも GPT-4 や LLAMA-2-13B-chat で常にはそうならず、コストを増加させることがある。
解決策デモンストレーションは、弱いモデルの成功率を著しく向上させ、コストへの影響は控えめである。
アシスタント階層は、GPT-4 のみと比較して約 10–50% のコスト削減を可能にし、性能がわずかに向上する可能性がある。
システム全体の組み合わせ（階層 + 解決策デモンストレーション）は、データセット全体で最も高い成功率を達成し、階層のみの場合よりもコストをさらに削減する。
混合データセットでは、階層とデモンストレーションを組み合わせた EcoAssistant が最良の性能を示しつつ比較的低コストを維持し、 autonomous 版も同様の傾向を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。