QUICK REVIEW

[논문 리뷰] Transformer models: an introduction and catalog

Xavier Amatriain, Sankar, Ananth|arXiv (Cornell University)|2023. 02. 12.

Reservoir Engineering and Simulation Methods인용 수 32

한 줄 요약

Transformer 기본 개념을 소개하고, 자체 감독 학습과 인간의 피드백 루프를 포함한 인기 있는 Transformer 모델의 포괄적 카탈로그를 제시하는 카탈로그 형식의 고찰.

ABSTRACT

In the past few years we have seen the meteoric appearance of dozens of foundation models of the Transformer family, all of which have memorable and sometimes funny, but not self-explanatory, names. The goal of this paper is to offer a somewhat comprehensive but simple catalog and classification of the most popular Transformer models. The paper also includes an introduction to the most important aspects and innovations in Transformer models. Our catalog will include models that are trained using self-supervised learning (e.g., BERT or GPT3) as well as those that are further trained using a human-in-the-loop (e.g. the InstructGPT model used by ChatGPT).

연구 동기 및 목표

Transformer 아키텍처에 대한 이해와 그것이 NLP 및 그 이상에 미치는 영향을 촉진한다.
대중적인 Transformer 모델과 그 핵심 속성에 대한 간단하고 포괄적인 카탈로그를 제공한다.
Foundation 모델과 파인튜닝 모델의 차이점과 현대 시스템에서 RLHF 및 인간 피드백의 역할을 설명한다.
태스크와 모달리티 전반에 걸친 Transformer 모델의 진화, 응용 및 확장을 강조한다.

제안 방법

인코더/디코더 Transformer 아키텍처와 어텐션 메커니즘을 설명한다.
사전학습 아키텍처(인코더, 디코더, 또는 인코더-디코더)와 사전학습 과제(MLM, DAE, LM 등)별로 모델을 분류한다.
Foundation 모델과 파인튜닝 모델의 정의 및 실무에서의 RLHF의 역할을 정의하고 논의한다.
모델 계통과 관계를 추적하기 위한 카탈로그 표와 패밀리 트리를 제시한다.
대표 모델과 주요 속성을 자세히 다룬 연대기적 타임라인과 부록 카탈로그 목록을 제공한다.
트랜스포머와의 관계에서 확산 모델을 설명하고 상호 운용성을 주목한다.

Figure 1: Transformer Architecture from ( ?)

실험 결과

연구 질문

RQ1주요 Transformer 모델을 정의하는 핵심 아키텍처 변형 및 사전학습 목표는 무엇인가?
RQ2실무에서 Foundation 모델과 파인튜닝 모델은 어떻게 다른가, 그리고 RLHF가 어떤 역할을 하는가?
RQ3현재까지의 인기 Transformer 모델의 흐름과 계통은 무엇이며, 다중 모달 및 대화 에이전트를 포함하는가?
RQ4태스크와 모달리티 전반에서 Transformer 모델 개발을 이끄는 주요 응용 분야와 트렌드는 무엇인가?

주요 결과

트랜스포머는 셀프 어텐션을 통해 병렬 연산과 장거리 의존성 학습을 가능하게 하여 RNN/LSTM 아키텍처를 넘어선 발전을 이끕니다.
자체 감독으로 학습된 파운데이션 모델은 파인튜닝이나 프롬프팅을 통해 광범위한 다운스트림 작업에 적응할 수 있습니다.
RLHF 같은 인간 in the loop 기술은 ChatGPT 및 관련 시스템과 같은 대화 에이전트를 정렬하고 개선하는 데 핵심이 되었습니다.
카탈로그는 BERT, GPT, BART, T5, BLOOM 등 다양한 프리트레이닝 아키텍처와 과제를 가진 많은 패밀리의 모델들을 식별합니다.
확산 모델은 트랜스포머와 관련되지만 구별되며, 많은 확산 방식이 트랜스포머 백본을 통합합니다.
이 논문은 트랜스포머를 둘러싼 생태계(도구, 하드웨어 가속기, 오픈소스 커뮤니티 예: HuggingFace 등)의 중요성을 강조합니다.

Figure 2: The Attention Mechanism from( ?). (left) Scaled Dot-Product Attention, (right) Multi-Head Attention

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.