[논문 리뷰] Rationale-Augmented Ensembles in Language Models
이 논문은 미세조정 없이도 NLP 태스크 전반에서few-shot in-context learning을 강건하게 향상시키기 위해 여러 모델이 생성한 합리적 추론(rationales)을 샘플링하고 집계하는 합치된 rationale-augmented ensembles 프레임워크를 도입합니다. 해석 가능성을 높이며, 추가 학습 없이도 성능을 개선합니다.
Recent research has shown that rationales, or step-by-step chains of thought, can be used to improve performance in multi-step reasoning tasks. We reconsider rationale-augmented prompting for few-shot in-context learning, where (input -> output) prompts are expanded to (input, rationale -> output) prompts. For rationale-augmented prompting we demonstrate how existing approaches, which rely on manual prompt engineering, are subject to sub-optimal rationales that may harm performance. To mitigate this brittleness, we propose a unified framework of rationale-augmented ensembles, where we identify rationale sampling in the output space as the key component to robustly improve performance. This framework is general and can easily be extended to common natural language processing tasks, even those that do not traditionally leverage intermediate steps, such as question answering, word sense disambiguation, and sentiment analysis. We demonstrate that rationale-augmented ensembles achieve more accurate and interpretable results than existing prompting approaches--including standard prompting without rationales and rationale-based chain-of-thought prompting--while simultaneously improving interpretability of model predictions through the associated rationales.
연구 동기 및 목표
- few-shot prompting에서 rationales가 성능에 악영향을 주는지 혹은 도움이 되는지 평가합니다.
- ensembles를 통해 rationales를 견고하게 활용하는 통합 프레임워크를 제안합니다.
- 출력 공간에서 rationales를 샘플링하는 것이 다양한 태스크와 모델에서 결과를 개선함을 보여줍니다.
- 추가 학습 없이도 비추론(task를 포함한 광범위한 NLP 태스크에 적용 가능함을 Demonstrate합니다.
제안 방법
- e-SNLI, BoolQ, WiC, SST-2와 같은 태스크에서 few-shot prompting에서 rationale 품질을 체계적으로 연구합니다.
- 모델의 디코더에서 샘플링하여 rationales를 주변화하는 rationale-augmented ensembles를 도입합니다.
- 앙상블 방법을 self-consistency, prompt-order ensembling, input-rationale ensembling으로 분류합니다.
- 출력 공간에서 샘플링하는 것이 성능 향상의 핵심 추진력임을 보여줍니다.
- PaLM-540B 및 GPT-3를 사용하여 여러 태스크에서 fine-tuning 없이 개선을 보여줍니다.
- 출력과 함께 rationales를 제공하여 해석 가능성을 제공합니다.
실험 결과
연구 질문
- RQ1왜 rationales가 few-shot 학습에서 성능에 악영향을 줄 수 있는가?
- RQ2일반적인 NLP 태스크 전반에서 성능을 개선하기 위해 rationales를 어떻게 신뢰성 있게 활용할 수 있는가?
- RQ3통합 앙상블 프레임워크가 rationales 품질 및 프롬프트 variations에 대해 robust한가?
- RQ4rationale-augmented ensembles가 QA, 감정 분석, paraphrase identification과 같은 비전통적 추론 태스크를 개선할 수 있는가?
주요 결과
- 출력 공간에서의 rationale 샘플링은 태스크와 모델 전반에서 일관되게 성능을 향상시킵니다.
- rationale-augmented ensembles는 대부분의 태스크에서 표준 prompting 및 기존 rationale-based prompting보다 우수합니다.
- 수동 rationales는 최적이 아닐 수 있으며; ensemble은 모델이 생성한 rationales를 사용해 성능을 회복하거나 상회할 수 있습니다.
- 해석 가능성을 높여 예측과 함께 rationales를 제공함으로써 해석 가능성을 제공합니다.
- 결과는 다양한 모델 규모(PaLM-540B, GPT-3)와 평가 설정(few-shot, zero-shot CoT)에서 견고합니다.
- 이 프레임워크는 SST-2, WiC, QQP와 같이 중간 단계가 전통적으로 필요하지 않은 태스크에도 작동합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.