[论文解读] Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models
在检索增强生成(RAG)管道中对大语言模型进行微调,通常会降低与基线模型相比的性能,跨多个数据集和领域。
Large Language Models (LLMs) have the unique capability to understand and generate human-like text from input queries. When fine-tuned, these models show enhanced performance on domain-specific queries. OpenAI highlights the process of fine-tuning, stating: "To fine-tune a model, you are required to provide at least 10 examples. We typically see clear improvements from fine-tuning on 50 to 100 training examples, but the right number varies greatly based on the exact use case." This study extends this concept to the integration of LLMs within Retrieval-Augmented Generation (RAG) pipelines, which aim to improve accuracy and relevance by leveraging external corpus data for information retrieval. However, RAG's promise of delivering optimal responses often falls short in complex query scenarios. This study aims to specifically examine the effects of fine-tuning LLMs on their ability to extract and integrate contextual data to enhance the performance of RAG systems across multiple domains. We evaluate the impact of fine-tuning on the LLMs' capacity for data extraction and contextual understanding by comparing the accuracy and completeness of fine-tuned models against baseline performances across datasets from multiple domains. Our findings indicate that fine-tuning resulted in a decline in performance compared to the baseline models, contrary to the improvements observed in standalone LLM applications as suggested by OpenAI. This study highlights the need for vigorous investigation and validation of fine-tuned models for domain-specific tasks.
研究动机与目标
- 评估在跨多个领域的 RAG管道中,对 LLM 进行微调是否能改善问答性能。
- 研究微调的训练数据集大小如何影响性能。
- 在开放数据集上,将微调模型与未微调的基线模型进行比较。
提出的方法
- 在 BioASQ、Natural Questions 和 Qasper 数据集上,在 RAG 管道中评估三种模型(Mistral、LlaMA2、GPT-4)。
- 以每个数据集 200、500、1000 个问答对对 Mistral 和 LlaMA2 进行微调;与基线进行比较。
- 在最多 4 块 H100 或 8 块 A100 的硬件上,使用不同的超参数(epochs、effective batch size、LoRa/QLoRa、LoRa 超参数)。
- 使用基于 G-Evals 的框架,采用 CoT + 表单填写方法,评估准确性和完整性。
- 通过重复的模型判断(10 次运行)来通过取平均稳定评分。

实验结果
研究问题
- RQ1在跨多个数据集的情况下,微调是否能提升基于 RAG 的问答性能相较于基线模型?
- RQ2微调数据集的大小如何影响在 RAG 增强的 LLM 上的性能?
- RQ3某些模型(例如 Mixtral 与 Llama2)是否比其他模型更易受到微调降级的影响?
主要发现
- 基线模型(Mixtral、Llama2、GPT-4)通常在所有数据集上都超过其微调对应版本,除了 NQ。
- GPT-4 基线在准确性和完整性方面也优于微调变体。
- 在某些情况下,微调模型显示显著下滑(例如,准确性和完整性下降,在 200-sample 微调时,Llama2 的准确性从 4.38 降至 3.14,完整性从 4.55 降至 2.35)。
- Qasper 数据集对微调的 Llama2 和 Mixtral 模型表现出显著的准确性下降;增加微调数据量有时会恶化性能(例如,在使用 1000 个样本时,Mixtral 的准确性从 4.04 降至 3.28)。
- 在若干情况下,较大的微调数据集并不能转化为更好的 RAG 管道性能。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。