QUICK REVIEW

[논문 리뷰] Explanations from Large Language Models Make Small Reasoners Better

Shiyang Li, Jianshu Chen|arXiv (Cornell University)|2022. 10. 13.

Topic Modeling인용 수 35

한 줄 요약

이 논문은 다중 작업 파인튜닝 프레임워크에서 LLM생성 설명이 소형 언어 모델의 추론을 크게 향상시키고, 베이스라인을 능가하며 심지어 60배 큰 GPT-3과 CommonsenseQA에서 최대 9.5%의 정확도 차이로 경쟁하는 경우도 있음을 보여주며, 동시에 고품질의 설명도 생성한다.

ABSTRACT

Integrating free-text explanations to in-context learning of large language models (LLM) is shown to elicit strong reasoning capabilities along with reasonable explanations. In this paper, we consider the problem of leveraging the explanations generated by LLM to improve the training of small reasoners, which are more favorable in real-production deployment due to their low cost. We systematically explore three explanation generation approaches from LLM and utilize a multi-task learning framework to facilitate small models to acquire strong reasoning power together with explanation generation capabilities. Experiments on multiple reasoning tasks show that our method can consistently and significantly outperform finetuning baselines across different settings, and even perform better than finetuning/prompting a 60x larger GPT-3 (175B) model by up to 9.5% in accuracy. As a side benefit, human evaluation further shows that our method can generate high-quality explanations to justify its predictions, moving towards the goal of explainable AI.

연구 동기 및 목표

LLM생성 설명으로 소형 추론기들을 역량 강화하여 크고 비용이 높은 모델에 대한 의존을 줄이는 동기를 부여한다.
LLM의 세 가지 설명 생성 전략을 체계적으로 비교하고 이를 다중 작업 학습으로 통합한다.
여러 추론 데이터셋에서 파인튜닝 베이스라인 대비 일관된 성능 향상을 입증한다.
MT-CoT가 강력한 결과를 낳고 설명가능한 AI 목표를 뒷받침하는 설명을 제공함을 보여준다.

제안 방법

세 가지 LLM 기반 설명 생성 접근법을 탐구한다: COTE (Chain-of-Thought, 잘못된 정답 거절 포함), RP (골든 라벨을 조건으로 한 합리화 프롬프트), 그리고 CROP (backup으로 RP를 사용하는 COTE의 하이브리드).
소형 모델을 (i) 직접 답하고 (ii) 설명과 답을 함께 생성하도록 MT-CoT를 포함한 다중 작업 학습 프레임워크를 사용한다. 또는 관련 변형 MT-Re 및 MT-Ra.
설명은 7-shot 시범을 포함한 맥락 학습을 통해 GPT-3에 의해 생성되고, 이후 T5 기반 소형 모델의 학습에 사용된다.
실험은 CommonsenseQA, StrategyQA, OpenBookQA를 다루며, ST 파인튜닝, MT 변형, 그리고 T5-small에서 T5-3B에 이르는 다양한 모델 크기를 비교한다.
인간 평가에서는 qtr 과제에 대해 생성된 설명의 질을 GPT-3 설명과 비교한다.

실험 결과

연구 질문

RQ1LLM이 생성한 설명이 소형 언어 모델의 추론 능력을 향상시킬 수 있는가?
RQ2어떤 설명 생성 및 다중 작업 학습 구성(configuration)이 데이터셋 전반에서 가장 큰 성능 향상을 이끌어내는가?
RQ3MT-CoT가 MT-Re 및 MT-Ra에 비해 소형 모델에 설명 이점을 전달하는 측면에서 어떻게 비교되는가?
RQ4대형 LLM 프롬핑과 비교하여 모델 크기를 확장하거나 few-shot/파인튜닝 설정을 사용할 때 관찰 가능한 이점이 있는가?
RQ5생성된 설명이 인간 관점에서도 경쟁력 있는 품질을 제공하는가?

주요 결과

다중 작업 학습은 LLM생성 설명을 포함한 다중 작업 학습은 세 데이터셋 모두에서 단일 작업 파인튜닝 베이스라인을 지속적으로 능가한다.
MT-CoT는 종종 최상의 성과를 달성하여 세 데이터셋 중 두 가지에서 MT-Re 및 MT-Ra를 능가한다.
CommonsenseQA에서 MT 접근 방식은 일부 설정에서 175B GPT-3의 파인튜닝/프롬프트를 최대 9.5%의 정확도 차이로 능가할 수 있다.
MT 및 설명 전략은 데이터 크기가 다른 상황에서도 견고함을 제공하며, 특히 데이터가 적을 때 유의미한 이득이 있다.
인간 평가에서 설명이 고품질이고 예측을 정당화할 수 있으며, 설명가능한 AI 목표를 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.