[논문 리뷰] LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions
LaMini-LM은 대형 LLM으로부터 2.58M 명령어 데이터셋으로 증류된 다양한 소형 명령어-미세조정 모델들(61M–7B)을 제안하며, 훨씬 작은 크기로도 경쟁력 있는 성능을 달성하고 환각성과 독성에 대한 분석을 제공한다.
Large language models (LLMs) with instruction fine-tuning demonstrate superior generative capabilities. However, these models are resource-intensive. To alleviate this issue, we explore distilling knowledge from instruction-tuned LLMs into much smaller ones. To this end, we carefully develop a large set of 2.58M instructions based on both existing and newly-generated instructions. In addition to being sizable, we design our instructions to cover a broad set of topics to ensure diversity. Extensive analysis of our instruction dataset confirms its diversity, and we generate responses for these instructions using gpt-3.5-turbo. Leveraging these instructions, we fine-tune a diverse herd of models, collectively referred to as LaMini-LM, which includes models from both the encoder-decoder and decoder-only families, with varying sizes. We evaluate the performance of our models using automatic metrics on 15 different natural language processing (NLP) benchmarks, as well as through human assessment. The results demonstrate that our proposed LaMini-LM models are comparable to competitive baselines, while being much smaller in size.
연구 동기 및 목표
- 더 큰 자원 집약적 LLM의 자원 요구를 완화하기 위해 작고 효율적인 명령어-미세조정 모델의 개발을 촉진한다.
- 총 2.58M 예시의 LaMini 명령어 데이터셋을 구축한다.
- LLM에서 지식을 다양한 아키텍처와 크기로 분산된 더 작은 모델들에 증류한다.
- 자동 평가와 사람 평가 모두를 통해 다수의 NLP 벤치마크에서 성능을 평가하고, 환각성과 독성을 평가한다.
- 추가 연구 및 자원제약 환경에서의 배치를 촉진하기 위해 데이터셋, 모델 체크포인트, 코드를 제공한다.
제안 방법
- self-instruct, P3, FLAN, Alpaca 소스의 조합으로 2.58M 명령어-응답 데이터셋을 구성하고 gpt-3.5-turbo를 사용한 예시-가이드 및 주제-가이드를 추가로 제시한다.
- 생성된 데이터셋에서 교사(gpt-3.5-turbo)의 출력을 모방하도록 작은 학생 모델을 훈련시켜 시퀀스 수준(오프라인)으로 증류한다.
- 다양한 소스(T5, Flan-T5, Cerebras-GPT, GPT-2/Neo/J, LLaMA)에서 초기화를 받아 61M–7B 규모의 인코더-디코더 및 디코더-전용 아키텍처를 대상으로 모델 가족을 미세조정한다.
- 자동 평가 헌트를 사용하여 15개 다양한 NLP 벤치마크에서 평가하고, 114개의 사용자 지향 명령에서 사람 평가를 수행한다.
- LaMini-Hallucination 테스트 세트와 RealToxicityPrompts 및 OpenAI Moderation을 통한 독성 평가로 환각을 평가한다.
- 데이터셋 하위집합과 아키텍처(인코더-디코더 대 디코더-전용)가 성능에 미치는 영향을 분석한다.
실험 결과
연구 질문
- RQ1대규모 디스틸드 명령어 데이터셋이 소형 모델에서 경쟁력 있는 성능을 낼 수 있는가?
- RQ2다양한 모델 아키텍처와 크기가 증류 후 명령어-미세조정 성능에 어떤 영향을 미치는가?
- RQ3다양한 명령어 데이터셋 하위집합의 사용이 다운스트림 작업 및 사람 평가에 어떤 영향을 미치는가?
- RQ4LaMini-LMs가 기초모델 및 독점 모델과 비교해 환각성과 독성 측면에서 어떤 성능을 보이는가?
주요 결과
- 많은 LaMini 모델이 Alpaca-7B와 같은 벤치마크를 상회하거나 LLaMA-7B에 근접한 성능을 보이며 다운스트림 작업에서 훨씬 더 작다.
- 인코더-디코더 LaMini 모델은 작은 규모에서 종종 디코더-전용 모델보다 우수하며; LaMini-Flan-T5-248M은 LLaMA-7B에 비견되며 LaMini-LLaMA-7B는 전체 결과에서 LLaMA-7B 및 Alpaca-7B를 상회한다.
- 2.58M LaMini 명령어 데이터셋이 성능에 큰 영향을 미치며; P3/FLAN에서 파생된 하위집합은 다운스트림 작업을 향상시키고, self-instruct 관련 데이터는 사람 평가 점수를 높인다.
- 개방형 LaMini 모델과 GPT-3.5-turbo 간의 환각 처리 격차가 여전히 남아 있어 LaMini-Hallucination 벤치마크를 만들었다.
- 독성 분석에서 인코더-디코더 모델은 일반적으로 명령어 조정 전에는 덜 독성이 강한 출력을 생성하는 경향이 있으나, 조정 후에는 아키텍처에 따라 경향이 다르게 나타나 모델 계열 간에 미묘한 차이가 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.