QUICK REVIEW

[논문 리뷰] Gemini: A Family of Highly Capable Multimodal Models

Gemini Robotics Team, Rohan Anil|arXiv (Cornell University)|2023. 12. 19.

Multimodal Machine Learning Applications인용 수 790

한 줄 요약

Gemini는 이미지, 오디오, 비디오, 텍스트 전반에 걸쳐 학습된 다중모달 모델 가족(Ultra, Pro, Nano)을 도입하여 수많은 벤치마크에서 최첨단 성과를 달성하고 기기에서의 사용을 가능하게 한다. Gemini Ultra는 MMLU에서 인간 전문가 수준의 성능을 달성하고 32개 벤치마크 중 30개를 선도한다.

ABSTRACT

This report introduces a new family of multimodal models, Gemini, that exhibit remarkable capabilities across image, audio, video, and text understanding. The Gemini family consists of Ultra, Pro, and Nano sizes, suitable for applications ranging from complex reasoning tasks to on-device memory-constrained use-cases. Evaluation on a broad range of benchmarks shows that our most-capable Gemini Ultra model advances the state of the art in 30 of 32 of these benchmarks - notably being the first model to achieve human-expert performance on the well-studied exam benchmark MMLU, and improving the state of the art in every one of the 20 multimodal benchmarks we examined. We believe that the new capabilities of the Gemini family in cross-modal reasoning and language understanding will enable a wide variety of use cases. We discuss our approach toward post-training and deploying Gemini models responsibly to users through services including Gemini, Gemini Advanced, Google AI Studio, and Cloud Vertex AI.

연구 동기 및 목표

텍스트, 이미지, 오디오, 비디오를 넘나드는 강력한 교차 도메인 기능을 갖춘 단일 다중모달 모델 계열을 개발한다.
Ultra(고능력), Pro(균형 성능 및 배포 용이성), Nano(온디바이스) 등 다양한 배포 요구에 맞춘 변형을 활성화한다.
품질, 정렬성 및 안전성을 개선하기 위한 사후 학습 모델을 제공하며, 채팅 중심 및 개발자 중심 변형을 제공한다.
언어, 코딩, 추론 및 다중모달 작업에 걸친 광범위한 내부 및 외부 벤치마크에서 성능을 평가한다.
현실 세계 적용을 위한 책임 있는 배포, 정책 및 시사점에 대해 논의한다.]
method:[
Transformer 디코더 기반 모델을 32k 컨텍스트 길이와 효율적 어텐션(예: 다중 질의 어텐션)을 사용해 학습한다.
다중모달 데이터(텍스트, 이미지, 오디오, 비디오)에서 함께 학습하되 네이티브 텍스트 및 이미지 출력 기능을 갖춘다.
Universal Speech Model로부터 16 kHz 신호의 오디오를 흡수해 미묘한 오디오 정보를 포착한다.
도메인 기능 및 안전 정렬성을 개선하기 위해 사후 학습을 사용한다.
온디바이스 배포를 위해 더 큰 Gemini 모델에서 Nano 모델을 추출하여(1.8B 및 3.25B 변형) 디스틸레이션한다.
사전 학습 및 사후 학습된 모델을 광범위한 언어, 코딩, 추론 및 다중모달 벤치마크에서 평가한다.

제안 방법

트랜스포머 디코더 기반 모델을 32k 컨텍스트 길이와 효율적 어텐션으로 학습한다.
다중모달 데이터(텍스트, 이미지, 오디오, 비디오)에서 공동 학습하되 텍스트 및 이미지 출력 기능을 갖춘다.
Universal Speech Model의 16 kHz 신호를 통해 오디오를 흡수하여 미묘한 오디오 정보를 포착한다.
도메인 능력 및 안전 정렬성을 개선하기 위해 사후 학습을 사용한다.
온디바이스 배포를 위해 더 큰 Gemini 모델에서 Nano 모델을 디스틸레이션한다(1.8B 및 3.25B 변형).
언어, 코딩, 추론 및 다중모달 벤치마크에서 사전 학습 및 사후 학습된 모델을 평가한다.

실험 결과

연구 질문

RQ1단일로 공동 학습된 다중모달 모델 가족이 텍스트, 이미지, 오디오 및 비디오 벤치마크에서 최첨단 성능을 달성할 수 있는가?
RQ2정확도, 효율성 및 배포를 고려할 때 Ultra, Pro 및 Nano 변형 간의 트레이드오프는 무엇인가?
RQ3사후 학습이 다중모달 모델의 사실성, 출처 표기 및 불확실성 표현에 어떤 영향을 미치는가?
RQ4다중모달 모델이 교차 모달 추론과 장문 컨텍스트 능력을 어느 정도 보여줄 수 있는가?
RQ5다국어 및 온디바이스 능력을 포함한 Gemini 가족의 언어 및 작업 전반의 다국어 성능은 어떠한가?

주요 결과

Gemini Ultra는 32개 벤치마크 중 30개에서 최첨단 결과를 달성하고 MMLU에서 인간 전문가 수준의 정확도 90.04%로 달성한다.
Gemini Ultra는 MMMU에서 새로운 최첨단을 설정하고(62.4%), 20개의 다중모달 벤치마크에서 최첨단 성능을 향상시킨다.
Gemini Nano 모델(1.8B 및 3.25B)은 특히 사실성, 추론 및 다국어 작업에서 강력한 온디바이스 성능을 제공하며, 더 큰 Gemini 모델로부터의 디스틸레이션 기반이다.
사후 학습 개입이 사실성(부정확성 비율 반감), 출처 AIS 점수(최대 60.0%), 불확실성 표현 정확성(69.3%)을 개선한다.
32k 컨텍스트 길이를 가진 다중모달, 장문 컨텍스트 모델이 회수 방식의 테스트에서 전체 컨텍스트에서 정확하게 검색을 수행한다(98% 정확도).
Gemini는 검색 및 도구 사용과 결합된 Gemini Pro를 통해 AlphaCode 2와 같은 복잡한 시스템을 가능하게 하여 경쟁 프로그래밍 작업에 활용한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.