Skip to main content
QUICK REVIEW

[논문 리뷰] Augmented Language Models: a Survey

Grégoire Mialon, Roberto Dessì|arXiv (Cornell University)|2023. 02. 15.
Topic Modeling인용 수 140
한 줄 요약

이 설문은 언어 모델이 추론과 외부 도구(ALMs)로 보강되는 방법을 목록화하고, 방법을 분류하며, 프롬프트, 검색 및 학습 접근법과 향후 방향 및 한계에 대해 논의합니다.

ABSTRACT

This survey reviews works in which language models (LMs) are augmented with reasoning skills and the ability to use tools. The former is defined as decomposing a potentially complex task into simpler subtasks while the latter consists in calling external modules such as a code interpreter. LMs can leverage these augmentations separately or in combination via heuristics, or learn to do so from demonstrations. While adhering to a standard missing tokens prediction objective, such augmented LMs can use various, possibly non-parametric external modules to expand their context processing ability, thus departing from the pure language modeling paradigm. We therefore refer to them as Augmented Language Models (ALMs). The missing token objective allows ALMs to learn to reason, use tools, and even act, while still performing standard natural language tasks and even outperforming most regular LMs on several benchmarks. In this work, after reviewing current advance in ALMs, we conclude that this new research direction has the potential to address common limitations of traditional LMs such as interpretability, consistency, and scalability issues.

연구 동기 및 목표

  • Augmented Language Models (ALMs) 정의하고 추론과 도구 사용을 구분한다.
  • 세 축: 추론, 도구, 및 학습 전략에 따른 ALM 접근법의 분류 체계 제공.
  • 프롬프트 방법, 재귀적 및 명시적 추론, 도구의 통합 방법(검색, 계산, 행위) 검토.
  • ALM의 학습 패러다임(감독 학습, 강화 학습, 명령어 미세 조정) 조사 및 한계와 향후 방향 논의.

제안 방법

  • 세 축으로 ALM 분류: 추론, 도구 사용, 학습.
  • 추론을 이끌기 위한 프롬프트 기법 설명(Chain-of-Thought, zero-shot/few-shot, Self-Ask, ReAct).
  • 재귀적 및 명시적 추론 방법 요약(least-to-most, 서브문제로의 분해).
  • 도구 모달리티를 다루며 다른 모델 호출, 정보 검색, 기호/코드 해석기, 가상/물리적 세계에서의 작동(Actuation)을 포함.
  • 검색 보강 언어 모델(REALM, RAG, RETRO, Atlas) 및 LM 맥락에의 통합에 대한 논의.
  • 추론 데이터에 대한 감독 학습 및 명령어 튜닝과 추론을 위한 미세 조정과 같은 학습 접근법의 추론 및 신뢰성에 대한 영향 논의.

실험 결과

연구 질문

  • RQ1언어 모델에서 추론을 효과적으로 이끌고 강화하는 전략은 무엇인가?
  • RQ2외부 도구 및 모듈을 어떻게 통합하여 LM의 기능을 확장할 수 있는가(검색, 계산, 행위)?
  • RQ3ALM에서 추론, 도구 사용, 정렬을 향상시키는 가장 적합한 학습 패러다임은 무엇인가?
  • RQ4해석 가능성, 확장성, 충실도 측면에서 ALM의 주요 한계와 향후 방향은 무엇인가?
  • RQ5],
  • RQ6key_findings_korean_source_placeholder
  • RQ7key_findings_v1_0_placeholder

주요 결과

  • 조사 결과 ALMs는 추론, 도구 사용 또는 둘 다를 통합함으로써 다양한 벤치마크에서 기존의 많은 표준 LMs보다 더 나은 성능을 낼 수 있음을 강조한다.
  • 주요 프롬프트 방법(chain-of-thought, Self-Ask, ReAct) 및 다단계 작업을 개선하기 위한 재귀적 또는 명시적 추론 전략이 다루어진다.
  • 검색 보강 모델(REALM, RAG, RETRO, Atlas)은 외부 데이터 소스로 LM 능력을 확장하는 데 핵심적이며 모델 규모를 과도하게 키우지 않는다.
  • 정보 검색, 코드 해석기, 기호 모듈, 모델 간 통신 등 도구의 다양한 모듈은 LM이 최신 정보를 활용하고 계산을 수행하도록 한다.
  • 지시 학습 및 추론 데이터를 사용한 미세 조정과 같은 학습 방법은 더 작은 모델도 더 큰 모델에 비해 추론 능력을 갖추도록 할 수 있다.
  • 진전에도 불구하고 충실성, 중간 단계의 해석 가능성 및 효율성은 여전히 주요 한계점이며 향후 연구 과제이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.