[논문 리뷰] Measuring and Narrowing the Compositionality Gap in Language Models
이 논문은 언어 모델의 구성성 격차를 정의하고 측정하며, 그 격차가 스케일에 따라 줄어들지 않는다는 것을 보이고, elicitive prompting(chain-of-thought 및 자기질문)과 self-ask + 검색 엔진 접근법으로 격차를 좁히고 다중 히프 QA 성능을 향상시킨다.
We investigate the ability of language models to perform compositional reasoning tasks where the overall solution depends on correctly composing the answers to sub-problems. We measure how often models can correctly answer all sub-problems but not generate the overall solution, a ratio we call the compositionality gap. We evaluate this ratio by asking multi-hop questions with answers that require composing multiple facts unlikely to have been observed together during pretraining. In the GPT-3 family of models, as model size increases we show that the single-hop question answering performance improves faster than the multi-hop performance does, therefore the compositionality gap does not decrease. This surprising result suggests that while more powerful models memorize and recall more factual knowledge, they show no corresponding improvement in their ability to perform this kind of compositional reasoning. We then demonstrate how elicitive prompting (such as chain of thought) narrows the compositionality gap by reasoning explicitly. We present a new method, self-ask, that further improves on chain of thought. In our method, the model explicitly asks itself (and answers) follow-up questions before answering the initial question. We finally show that self-ask's structured prompting lets us easily plug in a search engine to answer the follow-up questions, which additionally improves accuracy.
연구 동기 및 목표
- LM이 모든 하위 질문에 대해 올바르게 대답하지만 전체 구성질문에서 실패하는 경우의 비율(구성성 격차)을 정량화한다.
- 모델 크기/스케일이 구성적 추론 성능에 미치는 영향을 검토한다.
- 격차를 축소하고 다중 경로 질문 응답을 향상시키기 위한 elicitive 프롬프트 방법을 개발한다.
- 구성적 QA를 향상시키기 위한 실용적인 프롬프트 및 회수 전략을 제공한다.
제안 방법
- 구성적 데이터셋 2-hop(CC; Compositional Celebrities)을 만들어 구성성 격차를 측정한다.
- CC에서 GPT-3 계열 모델의 격차가 모델 크기 및 프롬프트 스타일에 따라 어떻게 스케일링되는지 평가한다.
- 발화 유도 프롬프트(chain of thought)와 문제를 후속 하위 질문으로 분해하는 새로운 자기질문 프롬프트를 도입한다.
- 자기질문에 검색 엔진을 확장(Self-ask + Search)하여 검색을 통해 하위 질문에 답하게 한다.
- 다양한 데이터셋(CC, 2WikiMultiHopQA, Musique, Bamboogle)에서 직접 프롬프트, 사고의 사슬, 간단한 검색 기반과 비교한다.
- 적용 가능한 경우 정확도와 효율성(답변당 토큰 수)을 모두 보고한다.
실험 결과
연구 질문
- RQ12-hop 구성적 질문에서 언어 모델의 크기가 커지면 구성성 격차가 줄어드는가?
- RQ2발화 유도 프롬프트가 직접 프롬프트나 표준 사고의 사슬에 비해 구성성 격차를 줄일 수 있는가?
- RQ3자기질문에 검색 엔진을 결합하면 구성적 질의 응답이 더 개선되는가?
- RQ4하위 답변에 대한 모델의 확신도(perplexity)가 구성적 성공과 어떤 관련이 있는가?
- RQ5CC를 넘어 여러 구성적 QA 데이터셋에서 제안된 방법이 얼마나 성능을 발휘하는가?
주요 결과
| 주요 결과 표 머리말 | ||||||
|---|---|---|---|---|---|---|
| Bamb. (Bamboogle) | 2Wiki Multi-Hop QA | Musique | Direct prompting | 17.6 | 25.4 | 5.6 |
| Chain of Thought | 46.4 | 29.8 | 12.6 | |||
| Search | 0.0 | 2.2 | 1.5 | |||
| Search + postproc. | - | 26.3 | 6.5 | |||
| Self-ask | 57.6 | 30.0 | 13.8 | |||
| Self-ask + Search | 60.0 | 40.1 | 15.2 |
- 구성성 격차는 GPT-3 계열 모델 크기 및 프롬프트 변형에 걸쳐 대략 40%로 일정하게 남아 있으며 스케일링에 따라 감소하지 않는다.
- 하위 질문은 높은 정확도로 답할 수 있지만 최종 구성성 답변은 뒤처져 있어, 강건한 구성보다는 기억에 의존함을 보여준다.
- 발화 유도 프롬프트(chain-of-thought)는 직접 프롬프트에 비해 구성성 질문의 성능을 개선하지만, 자기질문은 문제를 명시적으로 분해함으로써 결과를 더 개선한다.
- Self-ask은 더 다양한 데이터셋에서 더 큰 이득을 얻고(Self-ask + Search)와 결합하면 추가적인 정확도 향상이 있다.
- Self-ask와 Self-ask + Search는 일부 대안(예: Least-to-Most)보다 더 빠르면서도 정확도에서 동등하거나 더 나은 성능을 제공한다.
- 데이터셋 전반에 걸쳐 Self-ask + Search는 Self-ask 단독보다 정확도를 일관되게 향상시키며, 특히 Bamboogle에서 절대 정확도 증가가 최대 약 10포인트에 이른다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.