[논문 리뷰] Selection-Inference: Exploiting Large Language Models for Interpretable Logical Reasoning
저자들은 Selection-Inference (SI) 프레임워크를 도입하여 사전 학습된 LLM을 모듈식의 두 단계 프로세스(선택과 추론)로 활용해 인과적이고 해석 가능한 다단계 논리적 추론을 달성하고, 파인튜닝 없이 5샷 프롬프팅에서 일반적인_baseline과 Chain-of-Thought 벤치마크를 크게 능가하며 더 큰 모델들마저도 능가합니다.
Large language models (LLMs) have been shown to be capable of impressive few-shot generalisation to new tasks. However, they still tend to perform poorly on multi-step logical reasoning problems. Here we carry out a comprehensive evaluation of LLMs on 50 tasks that probe different aspects of logical reasoning. We show that language models tend to perform fairly well at single step inference or entailment tasks, but struggle to chain together multiple reasoning steps to solve more complex problems. In light of this, we propose a Selection-Inference (SI) framework that exploits pre-trained LLMs as general processing modules, and alternates between selection and inference to generate a series of interpretable, casual reasoning steps leading to the final answer. We show that a 7B parameter LLM used within the SI framework in a 5-shot generalisation setting, with no fine-tuning, yields a performance improvement of over 100% compared to an equivalent vanilla baseline on a suite of 10 logical reasoning tasks. The same model in the same setting even outperforms a significantly larger 280B parameter baseline on the same suite of tasks. Moreover, answers produced by the SI framework are accompanied by a causal natural-language-based reasoning trace, which has important implications for the safety and trustworthiness of the system.
연구 동기 및 목표
- LLMs가 다양한 논리 추론 작업에서 어떻게 수행하는지 평가하고 다단계 추론의 한계를 식별한다.
- 인과적 흔적을 개선하기 위한 모듈식 Selection-Inference 프레임워크를 제안한다.
- 5-shot 프롬프팅에서 7B LLM을 사용하여 SI 프레임워크의 효과를 검증하고 280B 모델을 포함한 벤치마크에 대항한다.
- SI가 안전성, 디버깅 및 신뢰에 유용한 해석 가능하고 인과적 추론 흔적을 제공함을 보인다.
제안 방법
- 추론을 Gopher 계열의 사전 학습된 고정된 LLM들로 구현된 반복적 선택 및 추론 단계로 분해한다.
- Selection 모듈의 프롬프트 엔지니어링을 통해 맥락에서 사실을 점수화하고 단일 추론 단계용 하위 집합을 선택한다.
- 질문에 접근하지 않고 선택된 하위 집합으로부터 새로운 사실을 생성하는 Inference 모듈을 별도로 사용한다.
- 다수의 (선택, 추론) 단계를 연결해 새로운 추론 사실을 포함하는 맥락을 구축하고 인과적 추론 흔적을 형성한다.
- SI를 일반 LLm, Chain-of-Thought(COT), 그리고 더 큰 280B 모델과 10개의 논리 과제에서 비교한다.
실험 결과
연구 질문
- RQ1LLMs가 단순 함의 entailment와 다단계 논리 추론 과제에서 어떻게 수행하는가?
- RQ2미세조정 없이 추론 정확도를 개선하기 위하여 모듈식 Selection-Inference 프레임워크가 가능하가?
- RQ3SI가 생성하는 추론 흔적이 인과적이고 해석 가능한 정당화를 제공하고 오류 복구를 가능하게 하는가?
주요 결과
- 7B LLM이 SI 프레임워크에서 58.75%의 생성 정확도를 달성하는 반면, 동일 모델을 순수하게 사용할 때는 2.94%, COT에서는 41.32%(모두 p<0.01)이다.
- 7B SI 모델은 종종 280B 벤치마크를 일반 설정에서 능가한다(31.19%와 COT 44.03% 대비, 모두 p<0.01).
- 더 쉬운 다지선다 평가에서 일반 모델의 7B가 280B 모델보다 우수하지만(57.31% 대 51.45%), SI는 생성 설정에서도 여전히 이를 능가한다.
- SI는 bAbI 15 개제 추론을 100% 정확도로 해결하며 오로지 다섯 개의 프롬프트 예시만 필요로 한다.
- SI는 ProofWriter Depth 0 및 Depth 1 과제에서 강력한 성능을 보이며(유의한 p값),
- SI는 인과적이고 자연어로 된 추론 흔적을 생성하고 새로운 추론 사실을 추가하여 오류에서 회복할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.