QUICK REVIEW

[논문 리뷰] Show Your Work: Scratchpads for Intermediate Computation with Language Models

Maxwell Nye, Anders Andreassen|arXiv (Cornell University)|2021. 11. 30.

Topic Modeling인용 수 130

한 줄 요약

이 논문은 중간 계산 단계의 scratchpad를 추가하면 트랜스포머가 다단계 계산(예: 긴 덧셈, 다항식 평가, 파이썬 프로그램 실행)을 직접 예측보다 훨씬 효과적으로 수행할 수 있게 하여, 더 큰 입력에 대한 일반화까지 향상시키는 것을 보여준다.

ABSTRACT

Large pre-trained language models perform remarkably well on tasks that can be done "in one pass", such as generating realistic text or synthesizing computer programs. However, they struggle with tasks that require unbounded multi-step computation, such as adding integers or executing programs. Surprisingly, we find that these same models are able to perform complex multi-step computations -- even in the few-shot regime -- when asked to perform the operation "step by step", showing the results of intermediate computations. In particular, we train transformers to perform multi-step computations by asking them to emit intermediate computation steps into a "scratchpad". On a series of increasingly complex tasks ranging from long addition to the execution of arbitrary programs, we show that scratchpads dramatically improve the ability of language models to perform multi-step computations.

연구 동기 및 목표

대형 언어 모델이 중간 단계(스크래치패드)를 발행함으로써 무한한 다단계 계산을 수행하도록 동기를 부여하고 가능하게 한다.
스크래치패드가 긴 덧셈, 다항식 평가, 파이썬 프로그램 실행 과제에서 성능을 개선함을 입증한다.
모델 아키텍처를 변경하지 않고도 적응적 계산 시간과 추적 가능한 중간 상태를 제공하는 스크래치패드의 이점을 보인다.
데이터 증강 및 다원 소스 추적 데이터를 활용하여 스크래치패드의 이점을 확장한다.

제안 방법

모델이 단계별 계산 결과를 내보내는 중간 텍스트 버퍼로서의 scratchpad를 도입한다.
감쇠기-전용 Transformer 모델을 입력/출력 및 scratchpad 내용을 감독 학습으로 예측하도록 훈련한다.
scratchpad를 적용하여: (i) 숫자 자리별 단계가 있는 긴 정수 덧셈, (ii) 다항식 평가, (iii) 실행 추적을 통한 파이썬 프로그램 실행을 수행한다.
few-shot 및 미세조정(fine-tuning) 구간에서 scratchpad 기반 실행과 직접 실행 예측을 비교한다.
다양한 모델 크기(2M에서 137B 파라미터)와 표준 훈련 설정을 사용한다.

실험 결과

연구 질문

RQ1Scratchpad가 트랜스포머가 다단계 알고리즘 문제를 직접 단일 패스 예측보다 더 정확하게 수행하도록 할 수 있는가?
RQ2중간 계산 추적을 발행하는 것이 긴 덧셈 및 다항식 평가와 같은 작업에서 분포를 벗어난 일반화를 개선하는가?
RQ3Scratchpad 추적이 주어진 입력에서 파이썬 프로그램 실행 예측의 정확도를 향상시키는가?
RQ4Scratchpad의 성능은 모델 크기와 데이터 구간(소수 샷 대 미세 조정)과 함께 어떻게 확장되는가?

주요 결과

Scratchpads는 덧셈, 다항식 평가, 프로그램 실행 과제에서 트랜스포머의 다단계 계산을 크게 향상시킨다.
Scratchpad로 학습된 모델은 scratchpad가 없을 때 학습된 모델보다 입력 크기가 더 커지는 경우 일반화가 더 잘 된다.
Scratchpad 기반 실행은 다항식 평가에서 소수 샷 및 미세조정 모두의 성능을 향상시킨다.
추적 기반 실행(프로그램 추적 예측)은 충분한 학습 데이터를 가정할 때 직접 실행에 비해 파이썬 프로그램 실행 예측을 상당히 향상시킨다.
데이터 증강 및 다원 소스 추적 데이터(Single-line, CodeNet)는 scratchpad 성능을 더욱 높여 추적 정확도를 상승시키고 해결 가능한 과제가 더 많아지게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.