QUICK REVIEW

[논문 리뷰] Generative Representational Instruction Tuning

Niklas Muennighoff, Hongjin Su|arXiv (Cornell University)|2024. 02. 15.

Innovative Teaching and Learning Methods인용 수 13

한 줄 요약

GRIT은 임베딩과 생성의 두 가지 작업을 하나의 대형 언어 모델에서 통합하여, 최첨단 임베딩 성능과 강력한 생성 결과를 달성하고, 검색 기반 생성의 속도를 높일 수 있도록 한다. 이 접근 방식은 지시 기반 신호와 두 가지 동시 손실로 두 작업을 처리하도록 모델을 학습한다.

ABSTRACT

All text-based language problems can be reduced to either generation or embedding. Current models only perform well at one or the other. We introduce generative representational instruction tuning (GRIT) whereby a large language model is trained to handle both generative and embedding tasks by distinguishing between them through instructions. Compared to other open models, our resulting GritLM 7B sets a new state of the art on the Massive Text Embedding Benchmark (MTEB) and outperforms all models up to its size on a range of generative tasks. By scaling up further, GritLM 8x7B outperforms all open generative language models that we tried while still being among the best embedding models. Notably, we find that GRIT matches training on only generative or embedding data, thus we can unify both at no performance loss. Among other benefits, the unification via GRIT speeds up Retrieval-Augmented Generation (RAG) by > 60% for long documents, by no longer requiring separate retrieval and generation models. Models, code, etc. are freely available at https://github.com/ContextualAI/gritlm.

연구 동기 및 목표

두 시스템이 아닌 단일 모델이 텍스트 임베딩과 생성 작업 모두에서 잘 작동하도록 하는 동기를 제공한다.
임베딩 표현 학습과 생성 지시 튜닝을 혼합하는 학습 패러다임을 개발한다.
단일 GRIT 모델이 작업 전반에서 특화된 임베딩 및 생성 베이스라인과 일치하거나 이를 능가할 수 있음을 입증한다.
GRIT의 검색 증강 생성 및 모델 서비스 인프라에 대한 실용적 이점을 보여준다.

제안 방법

두 가지 데이터 스트림으로 사전 학습된 LLM을 미세조정한다: 임베딩(표현) 및 생성 지시 데이터.
임베딩에는 양방향 어텐션과 평균 풀링을 사용하고, 생성에는 언어 모델링 헤드를 가진 인과적 어텐션을 사용한다.
손실 가중치를 제어하고 샘플- 및 토큰 단위 생성 손실의 혼합으로 joint loss L_GRIT = lambda_Rep L_Rep + lambda_Gen L_Gen를 최적화한다.
데이터 소스 실험(임베딩: MEDI, MEDI2, E5; 생성: Tülu 2, UltraChat, OpenAssistant) 및 기본 모델(Mistral 7B, Mixtral 8x7B 등)을 탐색한다.
임베딩은 56개 데이터셋에 걸친 MTEB에서 평가하고, 생성은 MMLU, GSM8K, BBH, TyDi QA, HumanEval 변형 등 표준에서 평가한다.
Dual 목표의 균형을 맞추기 위한 어텐션 유형, 풀링, 임베딩 헤드, 배치 크기, 정밀도 등의 아키텍처 선택과 학습 방식에 대해 조사한다.

실험 결과

연구 질문

RQ1단일 모델이 텍스트 임베딩에서 최첨단 성능을 달성하면서도 강력한 생성 능력을 유지할 수 있는가?
RQ2공동 최적화가 성능에 필수적인가, 아니면 임베딩 전용 및 생성 전용 모델이 충분한가?
RQ3단일 GRIT 모델을 사용할 때의 검색 증강 생성에서의 실질적 이점은 무엇인가?
RQ4데이터 소스, 어텐션 체계, 손실 구성은 이중 작업 성능에 어떤 영향을 미치는가?
RQ5단일 모델의 학습 효율성과 추론에서의 트레이드오프는 무엇인가?

주요 결과

GritLM 7B는 Massive Text Embedding Benchmark (MTEB)에서 오픈 모델 중 새로운 최첨단 성능을 달성했다.
GritLM 7B는 여러 생성 작업에서도 더 큰 공개 생성 모델보다 우수한 성능을 보인다.
GritLM 8x7B는 추론 시 13B를 사용하면서 작업 평균에서 최고의 오픈 생성 모델이 된다.
통합 GRIT 학습은 임베딩 전용 및 생성 전용 변형과 일치하며, 공동 손실이 이중 작업 성능에 결정적임을 입증하는 제거 실험이 있다.
GRIT를 사용한 RAG는 검색과 생성에 하나의 모델을 사용하고 캐싱을 가능하게 하여 긴 문서에서 추론을 60% 이상 빠르게 만든다.
더 큰 임베딩 배치 크기(예: 2048)를 사용하면 생성에 악영향 없이 임베딩 성능이 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.