QUICK REVIEW

[논문 리뷰] Making Language Models Better Tool Learners with Execution Feedback

Shuofei Qiao, Honghao Gui|arXiv (Cornell University)|2023. 05. 22.

Topic Modeling인용 수 8

한 줄 요약

TRICE는 실행 피드백을 통해 언어 모델이 외부 도구를 언제 그리고 어떻게 사용할지 배울 수 있도록 하는 두 단계 프레임워크로, 선택적 도구 사용을 향상시키고 오류 전파를 줄입니다.

ABSTRACT

Tools serve as pivotal interfaces that enable humans to understand and reshape the environment. With the advent of foundation models, AI systems can utilize tools to expand their capabilities and interact with the real world. Existing tool learning methodologies, encompassing supervised fine-tuning and prompt engineering approaches, often induce large language models to utilize tools indiscriminately, as complex tasks often exceed their own competencies. However, introducing tools for simple tasks, which the models themselves can readily resolve, can inadvertently propagate errors rather than enhance performance. This leads to the research question: can we teach language models when and how to use tools? To meet this need, we propose Tool leaRning wIth exeCution fEedback (TRICE), a two-stage end-to-end framework that enables the model to continually learn through feedback derived from tool execution, thereby learning when and how to use tools effectively. Experimental results, backed by further analysis, show that TRICE can make the large language model selectively use tools by improving the accuracy of tool usage while enhancing insufficient tool learning and mitigating excessive reliance on tools. Code is available at https://github.com/zjunlp/TRICE.

연구 동기 및 목표

LLM에서 도구가 진정으로 필요할 때와 필요하지 않을 때를 구분하는 문제를 제시한다.
실행 피드백을 통해 선택적 도구 사용을 가르치는 두 단계 학습 프레임워크를 제안한다.
필요할 때 LLM을 사용해 도구 사용 레이블을 생성하는 데이터 준비 파이프라인을 만든다.
실행 피드백이 여러 작업과 백본 전반에서 도구 사용 정확도를 개선하고 과도한 의존도를 줄임을 보여준다.

제안 방법

ChatGPT가 생성한 의사 레이블을 사용하여 도구 사용이 필요한 시점을 나타내는 데이터 세트를 준비한다.
Stage I: 도구 사용 데이터에 대한 지시 미세 조정을 통해 도구 사용 행동을 모방하는 행동 복제.
Stage II: 실행 피드백이 있는 강화 학습(RLEF)으로 실행 지침에 따라 바람직한 도구 사용을 강화한다.
모델 출력을 바람직한 후보 응답과 정렬시키기 위한 순위 손실과 출를 제약하기 위한 감독 미세 조정 손실을 사용한다.
정답 정확도와 금 응답과의 도구 사용 일관성으로 후보 응답을 점수화하는 보상 기반 전략을 사용한다.
단일 도구 및 다중 도구 설정을 가진 네 가지 작업 유형에 걸친 여덟 데이터 세트에서 여러 백본 모델에 걸쳐 평가한다.

실험 결과

연구 질문

RQ1LLM이 도구를 언제 호출할지 학습하여 도구에 과도하게 의존하지 않도록 할 수 있는가?
RQ2실행 피드백이 도구 사용의 정확성을 향상시키고 모델이 도구를 선택적으로 사용하도록 학습하는 데 도움이 되는가?
RQ3Trice로의 학습이 보지 않은 데이터셋과 도구에 일반화되는 정도는 어느 정도인가?
RQ4두 단계 학습이 안정적이고 효과적인 도구 학습에 어떻게 기여하는가?

주요 결과

Trice는 선택적 도구 사용을 가능하게 하며 다양한 작업과 백본에서 프롬프트 기반 벤치마크를 능가한다.
Stage I (Behavior Cloning)는 도구 사용 능력의 토대를 제공하고, Stage II (RLEF)가 선택성을 향상시키고 과도한 의존을 완화한다.
Trice-mix(다중 작업)로의 학습은 다수의 백본에서 Trice-split(작업별)보다 최첨단 성능을 낸다.
Trice는 보지 않은 도구 및 데이터셋 일반화를 개선하여 새로운 시나리오에서 도구 처리가 더 잘되도록 한다.
실행 피드백은 오류 전파를 줄이고 Stage I에서 관찰된 도구 학습의 불충분을 해결하는 데 도움이 된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.