QUICK REVIEW

[논문 리뷰] TALM: Tool Augmented Language Models

Aaron Parisi, Yao Zhao|arXiv (Cornell University)|2022. 05. 24.

Topic Modeling인용 수 32

한 줄 요약

TALM은 텍스트-대-텍스트 도구 인터페이스와 반복적 자기대화 루프를 통해 도구 사용을 부트스트랩하고, 더 작은 모델이 도구를 보강하지 않은 더 큰 LMs를 지식과 수학 과제에서 능가하도록 하며, 분포를 벗어난 입력에 일반화하도록 한다.

ABSTRACT

Transformer based language models (LMs) demonstrate increasing performance with scale across a wide variety of tasks. Scale alone however cannot enable models to solve tasks that require access to ephemeral, changing, or private data that was unavailable at training time. Many useful tasks may also benefit from LMs being able to access APIs that read or modify state. In this work, we present Tool Augmented Language Models (TALM), combining a text-only approach to augment language models with non-differentiable tools, and an iterative "self-play" technique to bootstrap performance starting from few tool demonstrations. TALM exhibits strong performance on both a knowledge-heavy QA task and a reasoning oriented math task with simple tools. At a given model scale, TALM significantly outperforms non-augmented LMs. We further demonstrate that TALM successfully performs out-of-distribution inferences on both QA and math tasks, where non-augmented LMs fail. Our results suggest that Tool Augmented Language Models are a promising direction to enrich LMs' capabilities, with less dependence on scale.

연구 동기 및 목표

학습 시점 지식 너머의 실시간이거나 비공개이며 상태를 변경하는 데이터에 접근하기 위한 도구 확장의 필요성을 동기화한다.
자연어 모델에서 임의의 도구를 호출하기 위한 텍스트-대-텍스트 인터페이스를 제안한다.
적은 라벨로 도구 사용 시연을 부트스트랩하기 위해 반복적 자기 대화를 도입한다.
확장성 및 일반화를 평가하기 위해 지식 중심의 QA 및 수학 추론 과제에서 TALM을 평가한다.

제안 방법

사전학습된 T5 모델(base, large, XL)을 텍스트-대-텍스트 도구 인터페이스 전반에 걸쳐 미세조정, 추론, 평가에 사용한다.
모델이 도구 입력과 구분자(|result 등)를 방출하여 도구를 호출하고 출력물을 텍스트 시퀀스에 덧붙이는 텍스트-대-텍스트 도구 인터페이스를 구현한다.
도구 사용 데이터를 부트스트랩하고 도구 보강 성능을 점진적으로 향상시키기 위해 반복적 자기플레이 파이프라인을 채택하며, 자기놀이 중에 다양한 도구 질의를 샘플링한다.
도구 사용을 정책-방향성 학습과 유사한 학습의 특수한 경우로 간주하고, 자기놀이 라운드에서 구축된 도구 사용 데이터셋으로 모델을 업데이트한다.

실험 결과

연구 질문

RQ1텍스트-대-텍스트 인터페이스를 통해 미분 불가능한 도구로 효과적으로 확장될 수 있는가?
RQ2반복적 자기놀이가 다양한 모델 규모에서 도구 사용 및 과제 성능 향상을 부트스트랩하는가?
RQ3도구 확장 LMs가 비확장 LMs와 비교하여 분포외 입력 및 변하는 지식에 일반화되는가?
RQ4자연질문이나 수학 단어 문제와 같은 지식 중심의 추론 과제에 도구 확장이 미치는 영향은 무엇인가?

주요 결과

TALM은 주어진 모델 규모에서 지식 및 수학 과제 모두에서 비확장 LMs를 상당히 능가한다.
초기 자기놀이 라운드가 상당한 이익을 낳고, 220M에서 3B 매개변수에 이르는 다양한 모델 크기에서 최대 3개의 라운드까지 추가 이익이 관찰된다.
작은 TALM 모델은 지식집약적 과제에서 조회형 도구의 이점을 더 많이 얻어 더 큰 모델과의 성능 격차를 줄인다.
TALM은 도구를 사용해 변화하는 지식(예: 웹/검색)에 접근하고 일반 LMs가 어려워하는 큰 수의 수학 연산을 다루는 등 분포외 일반화를 보여준다.
이 방법은 소수의 라벨이 있는 도구 시연(부트스트랩 세트 약 150개 도구 시연)으로 부트스트랩하고 자기놀이를 통한 반복적 개선을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.