QUICK REVIEW

[논문 리뷰] Large Language Models can Learn Rules

Zhaocheng Zhu, Yuan Xue|arXiv (Cornell University)|2023. 10. 10.

Topic Modeling인용 수 8

한 줄 요약

HtT는 훈련 예시를 통해 텍스트 규칙의 라이브러리를 유도하고 이를 연쇄적으로 적용해 LLM의 추론을 개선하며 관계형, 수치 및 개념 학습 작업에서 절대 정확도 10~30% 포인트 향상을 달성한다.

ABSTRACT

When prompted with a few examples and intermediate steps, large language models (LLMs) have demonstrated impressive performance in various reasoning tasks. However, prompting methods that rely on implicit knowledge in an LLM often generate incorrect answers when the implicit knowledge is wrong or inconsistent with the task. To tackle this problem, we present Hypotheses-to-Theories (HtT), a framework that learns a rule library for reasoning with LLMs. HtT contains two stages, an induction stage and a deduction stage. In the induction stage, an LLM is first asked to generate and verify rules over a set of training examples. Rules that appear and lead to correct answers sufficiently often are collected to form a rule library. In the deduction stage, the LLM is then prompted to employ the learned rule library to perform reasoning to answer test questions. Experiments on relational reasoning, numerical reasoning and concept learning problems show that HtT improves existing prompting methods, with an absolute gain of 10-30% in accuracy. The learned rules are also transferable to different models and to different forms of the same problem.

연구 동기 및 목표

명시적 규칙 지식의 필요성을 강조하여 암묵적 LLM 추론을 보완해야 함을 보여준다.
텍스트 규칙 라이브러리를 유도하고 적용하기 위한 Hypotheses-to-Theories (HtT)를 제안한다.
규칙 기반의 연역이 관계형, 수치 및 개념 학습 과제에서 정확도를 향상시킴을 보인다.
학습된 규칙이 모델 및 문제 Variant들 간에 전이 가능함을 시연한다.
HtT의 어떤 측면이 개선에 기여하는지와 성공 조건을 분석한다.

제안 방법

각 훈련 예제에 대해 LLM이 규칙을 생성하도록 유도하고, 정답과의 일관성 확인으로 규칙의 타당성을 검증한다.
최소 커버리지 k와 최소 신뢰도 p의 임계값으로 규칙을 필터링하여 규칙 라이브러리를 구축한다.
연역에서의 유도: 규칙 생성 및 검증을 위한 단일 프롬프트 설계를 재사용하여 프롤밍 노력을 줄인다.
연역 단계: 학습된 규칙 라이브러리를 귀납적 프롬프트 방식(CoT 또는 LtM 등) 앞에 붙여 reasoning 중에 규칙을 검색하고 적용하도록 LLM에 프롬프팅한다.
규칙 라이브러리를 계층적으로 구성하고 XML 태깅을 사용해 외부 검색 도구 없이도 규칙을 검색하도록 한다.
GPT-3.5와 GPT-4를 대상으로 CLUTRR(관계 추론), Arithmetic(비십진 기수의 수치 추론), List Functions(개념 학습)을 평가한다.

실험 결과

연구 질문

RQ1훈련 예제로부터 사용 가능한 텍스트 규칙 라이브러리를 LLM이 유도할 수 있는가?
RQ2귀납을 통한 학습된 규칙 라이브러리의 도입이 기본 프롬프트 대비 추론 정확도를 개선하는가?
RQ3유도된 규칙이 모델 간 및 문제 Variant 간에 전달 가능한가?
RQ4HtT의 이익을 가져오는 요인들(예: 규칙 커버리지/신뢰도, 예제 수)은 무엇인가?
RQ5HtT가 관계형, 수치 및 개념 학습 과제에서 어떻게 성능에 영향을 미치는가?

주요 결과

모델	프롬프트	2 홉	3 홉	4 홉	5 홉	6 홉	7 홉	8 홉	9 홉	10 홉	평균
에지트랜스포머	제로샷 CoT	100.0	94.4	96.8	88.0	68.8	61.9	50.0	50.0	36.0	71.8	제로샷 CoT 총 평균: 71.8
에지트랜스포머	5샷 CoT	0.0	27.8	45.2	36.0	18.8	19.0	16.7	11.5	16.0	21.2	5-shot CoT 총 평균: 21.2
에지트랜스포머	+ HtT	87.5	38.9	35.5	44.0	37.5	14.3	33.3	11.5	36.0	37.6
GPT-3.5	+ HtT (GPT-4)	100.0	55.6	32.3	60.0	50.0	47.6	43.3	19.2	28.0	48.4
GPT-3.5	5-shot LtM	37.5	22.2	29.0	36.0	25.0	14.3	10.0	23.1	20.0	24.1
GPT-3.5	+ HtT	100.0	33.3	32.3	48.0	31.3	33.3	23.3	34.6	28.0	40.5
GPT-4	+ HtT (GPT-4)	75	44.4	41.9	52.0	37.5	33.3	23.3	19.2	16.0	38.1
GPT-4	5-shot LtM	62.5	38.9	58.1	68.0	50.0	38.1	43.3	34.6	28.0	46.8
GPT-4	+ HtT	100.0	55.6	77.4	80.0	75.0	38.1	36.7	38.5	20.0	57.9

HtT는 다양한 작업과 모델에서 기본 프롬프팅 방식에 비해 10~30 포인트의 일관된 정확도 향상을 제공합니다.
symbolic CLUTRR에서 GPT-4는 HtT를 사용하면 CoT의 5-shot 대비 27.2포인트 향상을 보이고, CoT+HtT는 평균 48.4%로 기준 CoT의 21.2%를 상회합니다.
Arithmetic의 base-16/11/9에서 HtT가 GPT-4와 함께 기본 프롬프트 대비 최대 21.0포인트의 개선을 제공합니다.
List Functions에서 GPT-4의 경우 HtT로 평균 과제 정확도가 56.2%로 상승하고 4-shot CoT의 46.0%를 능가하며, GPT-3.5는 전달된 규칙으로부터 큰 이점을 얻습니다(과제 정확도 34.4%).
제한적(ablations) 분석은 대부분의 이익이 잘못된 규칙을 줄이는 데서 비롯됨을 보여주고, 무작위 규칙은 성능을 약화시킵니다.
유도 예제 수가 증가함에 따라 정확도가 로그-선형적으로 증가하며, 모든 데이터셋에서 필요한 규칙의 85% 이상을 HtT가 탐지합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.