[논문 리뷰] Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
본 논문은 다운스트림 NLP 태스크에서 대형언어모델(LLMs)을 활용하기 위한 실용적 가이드를 제공하고, LLM과 미세조정 모델을 비교하며, 데이터 기반 고려사항, 태스크별 사용 사례 및 배포 요인을 개략적으로 제시합니다.
This paper presents a comprehensive and practical guide for practitioners and end-users working with Large Language Models (LLMs) in their downstream natural language processing (NLP) tasks. We provide discussions and insights into the usage of LLMs from the perspectives of models, data, and downstream tasks. Firstly, we offer an introduction and brief summary of current GPT- and BERT-style LLMs. Then, we discuss the influence of pre-training data, training data, and test data. Most importantly, we provide a detailed discussion about the use and non-use cases of large language models for various natural language processing tasks, such as knowledge-intensive tasks, traditional natural language understanding tasks, natural language generation tasks, emergent abilities, and considerations for specific tasks.We present various use cases and non-use cases to illustrate the practical applications and limitations of LLMs in real-world scenarios. We also try to understand the importance of data and the specific challenges associated with each NLP task. Furthermore, we explore the impact of spurious biases on LLMs and delve into other essential considerations, such as efficiency, cost, and latency, to ensure a comprehensive understanding of deploying LLMs in practice. This comprehensive guide aims to provide researchers and practitioners with valuable insights and best practices for working with LLMs, thereby enabling the successful implementation of these models in a wide range of NLP tasks. A curated list of practical guide resources of LLMs, regularly updated, can be found at \url{https://github.com/Mooler0410/LLMsPracticalGuide}.
연구 동기 및 목표
- 실무자들이 NLP 태스크에서 LLM과 미세조정 모델을 언제 사용할지 이해하도록 동기를 부여한다.
- 사전 학습, 미세조정, 테스트 데이터가 LLM 성능에 미치는 영향을 설명한다.
- NLU, NLG, 지식집약적 태스크에 대한 태스크별 지침을 제공하고 한계를 식별한다.
- 현실 세계 시나리오에서 배포를 돕기 위한 실용적 권고사항과 의사결정 흐름을 제시한다.
제안 방법
- LLMs를 인코더-디코더, 인코더-만, 디코더-만 아키텍처로 분류하고 학습 패러다임(마스킹 언어 모델링 vs 오토회귀)을 논의한다.
- LLMs와 미세조정 모델 간의 실용적 차이를 정의한다(LLMs는 넓은 데이터로 사전학습; 미세조정 모델은 사전학습 후 태스크-튜닝)와 규모의 함의에 대해 논한다(<20B 파라미터를 미세조정 수준으로 간주).
- 사전학습 데이터, 학습/튜닝 데이터, 테스트 데이터를 포함한 데이터의 영향력을 분석하고 제로샷, 소수 샷, 다주석 상황을 포함해 데이터가 미치는 영향을 분석하고 LLM과 미세조정 모델 중 언제 사용할지에 대한 가이드를 제시한다.
- NLP 태스크(NLU, NLG, 지식집약적 태스크)와 출현 능력을 살펴보고 사용 사례 대 비사용 사례에 대한 지침을 제시하며 한계를 강조한다.
- 다양한 태스크에 대해 LLM과 미세조정 모델 중 선택하는 실용적 의사결정 흐름(도표 3)을 제안한다.
실험 결과
연구 질문
- RQ1실무자들이 다운스트림 NLP 태스크에서 LLM을 미세조정 모델보다 언제 선택해야 하는가?
- RQ2사전학습 데이터, 미세조정 데이터, 테스트 데이터가 실무에서 LLM 성능에 어떤 영향을 미치는가?
- RQ3전통적 NLU, NLG(생성), 지식집약적 태스크 전반에서 LLM의 실용적 사용 사례와 한계는 무엇인가?
- RQ4효율성, 비용, 지연시간 등의 배포 고려사항이 LLM의 실용적 활용에 어떤 영향을 미치는가?
주요 결과
- LLMs는 분포 밖 데이터(out-of-distribution)와 주석 데이터가 제한된 상황에서 미세조정 모델보다 일반화가 더 잘된다.
- 전통적 NLU 태스크에서 풍부한 주석 데이터와 더 낮은 컴퓨팅 비용으로 미세조정 모델이 종종 LLM보다 성능이 높다.
- LLMs는 개방형 텍스트 및 코드 합성과 같은 생성 태스크에 탁월하고 많은 지식집약적 태스크에서도 좋은 성능을 보인다.
- 검색 추가(Retrieval-augmented) 방식은 폐기된 책일? 닫힌 책 태스크를 오픈북으로 전환하여 지식이 많은 태스크의 성능을 향상시킨다.
- 규모 확장은 출현 능력과 추론 능력 향상을 이끌지만 모든 태스크에서 일관된 이득을 보장하지는 않는다.
- RLHF 및 지시 준수 능력(InstructGPT, ChatGPT 등)은 일반화와 강건성을 개선하고 다국어 지시 준수도 포함한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.