QUICK REVIEW

[论文解读] Explanations from Large Language Models Make Small Reasoners Better

Shiyang Li, Jianshu Chen|arXiv (Cornell University)|Oct 13, 2022

Topic Modeling被引用 35

一句话总结

论文表明，在多任务微调框架中使用的LLM生成解释显著提升小型语言模型的推理能力，超过基线，甚至在CommonsenseQA上与60倍规模的GPT-3相当，准确率提升多达9.5%，同时生成高质量的解释。

ABSTRACT

Integrating free-text explanations to in-context learning of large language models (LLM) is shown to elicit strong reasoning capabilities along with reasonable explanations. In this paper, we consider the problem of leveraging the explanations generated by LLM to improve the training of small reasoners, which are more favorable in real-production deployment due to their low cost. We systematically explore three explanation generation approaches from LLM and utilize a multi-task learning framework to facilitate small models to acquire strong reasoning power together with explanation generation capabilities. Experiments on multiple reasoning tasks show that our method can consistently and significantly outperform finetuning baselines across different settings, and even perform better than finetuning/prompting a 60x larger GPT-3 (175B) model by up to 9.5% in accuracy. As a side benefit, human evaluation further shows that our method can generate high-quality explanations to justify its predictions, moving towards the goal of explainable AI.

研究动机与目标

动机是通过让小型推理系统获得LLM生成的解释，减少对大型高成本模型的依赖。
系统性比较来自LLMs的三种解释生成策略，并通过多任务学习把它们整合起来。
展示在多个推理数据集上，相对于微调基线的一致性性能提升。
表明MT-CoT能取得强劲结果并提供有助于可解释AI目标的解释。

提出的方法

探讨三种基于LLM的解释生成方法：COTE（连锁思路链，带错误答案拒绝）、RP（基于黄金标签条件的 rationalization 提示），以及CROP（将COTE与RP备份结合的混合方法）。
使用多任务学习框架训练小型模型以（i）直接回答和（ii）生成解释加答案（MT-CoT），或相关变体 MT-Re 和 MT-Ra。
解释由GPT-3通过带有7-shot示例的上下文学习生成，然后用于训练基于T5的小型模型。
实验覆盖CommonsenseQA、StrategyQA和OpenBookQA，比较ST微调、MT变体，以及多种模型大小（T5-small到T5-3B）。
人类评估评估为qtr任务生成的解释相对于GPT-3解释的质量。

实验结果

研究问题

RQ1LLM会生成的解释能否提升小型语言模型的推理能力？
RQ2哪种解释生成与多任务学习配置在各数据集上能带来最强的性能提升？
RQ3MT-CoT相较 MT-Re 和 MT-Ra 在把解释收益转移到小模型上的表现？
RQ4与大LLM提示相比，在扩大模型规模或使用少量示例/微调设置时，是否能观察到增益？
RQ5从人类角度看，生成的解释是否具有竞争力的质量？

主要发现

使用LLM生成解释的多任务学习在所有三个数据集上始终优于单任务微调基线。
MT-CoT通常取得最佳结果，在三数据集中的两个上超越 MT-Re 与 MT-Ra。
在CommonsenseQA上，某些情形下MT方法可以超过对175B GPT-3的微调/提示，最多9.5%准确率。
MT与解释策略在不同数据规模下具鲁棒性，包括few-shot设置，在数据稀缺时有显著提升。
人类评估显示解释质量高，能为预测提供理由，支持可解释AI目标。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。