QUICK REVIEW

[논문 리뷰] What is the Role of Small Models in the LLM Era: A Survey

Lihu Chen, Gaël Varoquaux|arXiv (Cornell University)|2024. 09. 10.

Digital Rights Management and Security인용 수 6

한 줄 요약

이 설문은 소형 모델(SMs)이 대형 언어 모델(LLMs)과의 협업 및 상호 보완성에 걸쳐 데이터 큐레이션, 보강된 추론, 효율적 배치를 중심으로 어떻게 보완하고 경쟁하는지 분석합니다.

ABSTRACT

Large Language Models (LLMs) have made significant progress in advancing artificial general intelligence (AGI), leading to the development of increasingly large models such as GPT-4 and LLaMA-405B. However, scaling up model sizes results in exponentially higher computational costs and energy consumption, making these models impractical for academic researchers and businesses with limited resources. At the same time, Small Models (SMs) are frequently used in practical settings, although their significance is currently underestimated. This raises important questions about the role of small models in the era of LLMs, a topic that has received limited attention in prior research. In this work, we systematically examine the relationship between LLMs and SMs from two key perspectives: Collaboration and Competition. We hope this survey provides valuable insights for practitioners, fostering a deeper understanding of the contribution of small models and promoting more efficient use of computational resources. The code is available at https://github.com/tigerchen52/role_of_small_models

연구 동기 및 목표

LLM 시대에서 소형 모델의 생태적 지위를 이해하도록 동기를 부여한다.
정확도, 일반성, 효율성, 해석가능성 측면에서 SM과 LLM을 비교한다.
데이터 큐레이션, 평가 및 확장된 추론을 통해 SM이 LLM을 지원하는 방법을 도식화한다.
자원 제약 환경에서의 실용적 협력 패턴과 향후 연구 방향을 제안한다.

제안 방법

LLMs에 비해 소형 모델을 정의하고 Transformer 기반 아키텍처에 초점을 맞춘다.
SM이 LLM을 강화하는 협업 메커니즘(데이터 큐레이션, 평가, 효율성, 보강된 추론)을 체계적으로 검토한다.
LLMs가 SM을 지원하는 방법(더 풍부한 감독, 프롬프트 및 도메인 적응)을 체계적으로 검토한다.
데이터 큐레이션, 증강, 프롬프트 엔지니어링, 결함 보완으로 접근법을 분류한다.
데이터 선택, 재가중 및 약한 감독에서 강한 감독으로의 지도 학습을 핵심 패러다임으로 논의한다.
데이터 품질, 합성 데이터 및 이론적 이해에 대한 향후 방향과 남은 질문을 개략한다.

실험 결과

연구 질문

RQ1소형 모델이 LLM 기반 시스템의 데이터 큐레이션, 훈련, 추론 및 평가에서 어떤 역할을 하는가?
RQ2소형 모델이 효율성, 강건성 및 정합성을 향상시키기 위해 LLM과 어떻게 협업할 수 있는가?
RQ3LLM 시대에서 SM이 여전히 유리한 실용적이고 생태학적 위치는 무엇인가?
RQ4SM을 사용한 데이터 선택, 재가중 및 약한 감독에서 강한 감독으로의 지도학습에 대한 효과적인 전략은 무엇인가?
RQ5SM과 LLM의 가치를 maximum으로 만드는 향후 연구 방향은 무엇인가?

주요 결과

소형 모델은 여전히 대중적이고 유용하며, 특정 설정에서 경쟁력 있는 성능과 더불어 비용 및 효율성 이점을 제공합니다.
SM은 데이터 큐레이션, 약한 감독에서 강한 감독으로의 감독, 검증을 통해 파이프라인 전반에서 LLM을 강화하여 품질과 강건성을 향상시킬 수 있습니다.
RAG, 도메인 적응, 프롬프트 엔지니어링, 및 결함 보완은 SM이 LLM의 보강된 추론을 돕는 핵심 경로입니다.
SM을 이용한 데이터 큐레이션 전략(선정 및 재가중)은 적은 데이터로도 고품질의 작업-또는 도메인-특정 학습 데이터를 가능하게 한다.
약한 감독에서 강한 감독으로의 일반화는 약한 감독자가 더 강한 모델을 이끌 수 있음을 보여주며, 방대한 사람 라벨링 데이터에 대한 의존도를 줄인다.
본 논문은 ‘적은 것이 더 낫다’는 점을 강조하며, 고품질 데이터를 큐레이션하고 SM을 활용하여 비용을 낮추면서 성능을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.