[논문 리뷰] Large Concept Models: Language Modeling in a Sentence Representation Space
이 논문은 고정된 문장 임베딩 공간(SONAR)에서 자기회귀 생성을 수행하는 대규모 컨셉 모델(LCMs)을 도입하여 언어 및 양식에 구애받지 않는 추론과 강력한 제로샷 다언어 일반화를 가능하게 합니다. 기본, 확산 기반, 그리고 양자화 변형을 비교하고, 다언어 평가로 7B 파라미터까지 확장하며 학습 코드와 인코더/디코더를 공개합니다.
LLMs have revolutionized the field of artificial intelligence and have emerged as the de-facto tool for many tasks. The current established technology of LLMs is to process input and generate output at the token level. This is in sharp contrast to humans who operate at multiple levels of abstraction, well beyond single words, to analyze information and to generate creative content. In this paper, we present an attempt at an architecture which operates on an explicit higher-level semantic representation, which we name a concept. Concepts are language- and modality-agnostic and represent a higher level idea or action in a flow. Hence, we build a "Large Concept Model". In this study, as proof of feasibility, we assume that a concept corresponds to a sentence, and use an existing sentence embedding space, SONAR, which supports up to 200 languages in both text and speech modalities. The Large Concept Model is trained to perform autoregressive sentence prediction in an embedding space. We explore multiple approaches, namely MSE regression, variants of diffusion-based generation, and models operating in a quantized SONAR space. These explorations are performed using 1.6B parameter models and training data in the order of 1.3T tokens. We then scale one architecture to a model size of 7B parameters and training data of about 2.7T tokens. We perform an experimental evaluation on several generative tasks, namely summarization and a new task of summary expansion. Finally, we show that our model exhibits impressive zero-shot generalization performance to many languages, outperforming existing LLMs of the same size. The training code of our models is freely available.
연구 동기 및 목표
- 토큰을 넘어서 추상적 수준의 추론을 촉진하기 위해 언어 및 모달리티에 구애받지 않는 임베딩 공간에서 작동합니다.
- 문장 표현이 일관된 장문 생성과 언어 간 전이를 지원할 수 있는지 평가합니다.
- 여러 아키텍처에 걸쳐 SONAR 임베딩에서 자기회귀 생성의 타당성을 입증합니다.
- SONAR 인코더/디코더가 지원하는 언어와 모달리티 전반에 걸친 제로샷 일반화 능력을 평가합니다.
- 개념 기반 모델링 연구를 촉진하기 위해 오픈소스 학습 코드와 구성 요소를 제공합니다.
제안 방법
- 입력을 개념의 시퀀스(문장)로 표현하기 위해 기존의 언어 및 모달리티에 구애받지 않는 문장 임베딩 공간으로 SONAR를 사용합니다.
- 학습 LCM을 임베딩 공간에서 다음 개념을 자기회귀적으로 예측하도록 훈련하며, MSE 또는 확산 기반 목적 함수를 사용하고 양자화된 변형을 탐구합니다.
- 세 가지 LCM 변형을 조사합니다: 표준 디코더-트랜스포머 아키텍처를 가진 Base-LCM; 하나의 백본을 갖춘 One-Tower 확산 LCM; 컨텍스추얼라이저와 디노이저를 결합한 Two-Tower 확산 LCM.
- 코사인, 이차, 새로 도입된 시그모이드 스케줄을 포함한 확산의 여러 노이즈 스케줄을 연구하고 추론 시 분류기-프리(diffusion guidance) 및 Epsilon-스케일링을 적용합니다.
- LCM을 재학습시키지 않고도 다양한 언어/모달리티 출력으로 출력하기 위한 중지 기준 및 SONAR 디코더를 통한 디코딩을 평가합니다.
- LCM 학습 및 SONAR 인코더/디코더용 오픈소스 코드를 게시합니다.
실험 결과
연구 질문
- RQ1고정된 문장 임베딩 공간에서 자기회귀 모델이 효과적으로 작동하여 일관된 장문 콘텐츠를 생성할 수 있는가?
- RQ2임베딩 공간 생성에서 품질과 다양성을 향상시키기 위해 확산 기반 및 양자화된 접근 방식이 어느 정도까지 기여하는가?
- RQ3유사 규모의 토큰 기반 LLM과 비교하여 LCM이 제로샷 다중언어 생성에서 어떻게 성능을 보이는가?
- RQ4장문 맥락 추론과 모달리티가 다양한 출력에 대한 계층적이고 컨셉 중심의 아키텍처의 이점은 무엇인가?
- RQ5다양한 언어에 걸친 문장 세분화와 임베딩 기반 생성에서의 실질적 도전 과제와 절충점은 무엇인가?
주요 결과
- LCMs은 SONAR 임베딩이 지원하는 언어와 모달리티 간 제로샷 생성을 수행할 수 있습니다.
- 확산 기반 및 양자화된 변형을 통해 연속 문장 임베딩에 대한 조건부 분포를 모델링합니다.
- 대규모 데이터에서 학습된 7B-파라메터 확산 LCM은 비슷한 규모의 기존 모델에 비해 경쟁력 있는 성능을 보입니다.
- 이 아키텍처는 토큰이 아닌 더 높은 수준의 컨셉에서 작동함으로써 장문형의 계층적 추론을 가능하게 합니다.
- SONAR 기반 인코더/디코더는 광범위한 언어 커버리지를 가능하게 하며(텍스트 200개 언어, 음성 76개 언어) 추가 모달리티를 제공합니다.
- 저자들은 커뮤니티 사용을 위해 학습 코드와 SONAR 구성 요소를 공개합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.