QUICK REVIEW

[논문 리뷰] Towards Reasoning in Large Language Models: A Survey

Jie Huang, Kevin Chen–Chuan Chang|arXiv (Cornell University)|2022. 12. 20.

Topic Modeling인용 수 38

한 줄 요약

대형 언어 모델에서의 추론에 대한 포괄적 조사로, 정의, 추론을 이끌어내고 개선하는 기술, 평가 방법, 발견 및 향후 방향을 다룬다.

ABSTRACT

Reasoning is a fundamental aspect of human intelligence that plays a crucial role in activities such as problem solving, decision making, and critical thinking. In recent years, large language models (LLMs) have made significant progress in natural language processing, and there is observation that these models may exhibit reasoning abilities when they are sufficiently large. However, it is not yet clear to what extent LLMs are capable of reasoning. This paper provides a comprehensive overview of the current state of knowledge on reasoning in LLMs, including techniques for improving and eliciting reasoning in these models, methods and benchmarks for evaluating reasoning abilities, findings and implications of previous research in this field, and suggestions on future directions. Our aim is to provide a detailed and up-to-date review of this topic and stimulate meaningful discussion and future work.

연구 동기 및 목표

LLM과 관련되어 추론의 개념과 그 형태를 명확히 한다.
프롬프트링, 파인튜닝, 하이브리드 방법을 포함하여 LLM에서 추론을 이끌어내고 개선하는 기법들을 요약한다.
LLM의 추론을 평가하기 위한 방법과 벤치마크를 조사한다.
주요 발견과 시사점을 종합하고 해당 분야의 향후 방향을 논의한다.

제안 방법

특정 데이터셋에서 추론을 학습시키는 수단으로서의 전적으로 지도된 파인튜닝에 대한 검토.
연쇄적 사고 추론을 이끌어내기 위한 프롬프트링 및 인-컨텍스트 학습 접근법의 해설.
전제 설계, 탐색 및 검증을 포함한 이유 체계 설계에 대한 설명.
복잡한 작업을 처리하기 위한 문제 분해 기법에 대한 논의.
학습 향상과 프롬프트 전략을 결합한 하이브리드 방법의 개요.
계속적인 추론 향상을 위한 부트스트래핑 및 자기 개선 패러다임의 범위.

실험 결과

연구 질문

RQ1대형 언어 모델의 맥락에서 추론이 무엇이며 평가를 위해 어떻게 정의되어야 하는가?
RQ2프롬프트링, 파인튜닝, 하이브리드 방법은 LLM의 추론 능력을 어떻게 이끌어내거나 개선할 수 있는가?
RQ3LLM의 추론 및 그 질을 효과적으로 측정하는 평가 방법과 벤치마크는 무엇인가?
RQ4LLM 추론에 대한 주요 발견, 한계 및 향후 연구에 대한 시사점은 무엇인가?

주요 결과

추론은 매우 큰 언어 모델에서 등장하는 능력으로 보이며 모델 규모에 의존할 수 있다.
연쇄적 사고 프롬프트가 추론 과제 및 분포 외 상황에서 성능과 강인성을 향상시킬 수 있다.
근거 정제, 탐색 및 검증은 추론 결과와 신뢰성에 영향을 줄 수 있다.
문제 분해 전략은 LLM이 복잡한 작업을 하위 문제로 나누어 다루도록 돕는다.
추론 강화 학습과 프롬프트링을 결합한 하이브리드 방식은 더 깊은 개선 가능성을 보인다.
현 벤치마크는 실제 추론 능력을 완전히 반영하지 못할 수 있으며 일부 경우 모델의 추론을 과대평가할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.