QUICK REVIEW

[論文レビュー] Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation

Lijun Yu, José Lezama|arXiv (Cornell University)|Oct 9, 2023

Multimodal Machine Learning Applications被引用数 21

ひとこと要約

提供されたテキストは ICLR 2024 提出用のフォーマットガイドであり、論文の実際の研究内容ではありません。

ABSTRACT

While Large Language Models (LLMs) are the dominant models for generative tasks in language, they do not perform as well as diffusion models on image and video generation. To effectively use LLMs for visual generation, one crucial component is the visual tokenizer that maps pixel-space inputs to discrete tokens appropriate for LLM learning. In this paper, we introduce MAGVIT-v2, a video tokenizer designed to generate concise and expressive tokens for both videos and images using a common token vocabulary. Equipped with this new tokenizer, we show that LLMs outperform diffusion models on standard image and video generation benchmarks including ImageNet and Kinetics. In addition, we demonstrate that our tokenizer surpasses the previously top-performing video tokenizer on two more tasks: (1) video compression comparable to the next-generation video codec (VCC) according to human evaluations, and (2) learning effective representations for action recognition tasks.

研究の動機と目的

ICLR 2024 論文の提出フォーマット要件を説明する。
ページ制限、余白、活字組版を指定する。
引用と図表のキャプションの慣例を概説する。
PDF/PS 出力の作成手順を提供する。
スタイルファイルを変更しないことと記法の慣例についての指針を示す。

提案手法

一般的なフォーマットルールを詳述する（用紙サイズ、余白、フォント、間隔）。
見出し、引用、および文献リストの整形の期待値を定義する。
図表の提示、キャプション、および番号付けを規定する。
PDF/PS の作成コマンドと余白の考慮事項を概説する。
推奨される記法の枠組みと脚注のサンプルを含む。

実験結果

リサーチクエスチョン

RQ1提供されたテキストには研究内容ではなくフォーマット指示が含まれているため、研究課題は提示されていません。
RQ2もしあるとすれば、示唆される質問は、ICLR 2024 論文を正しくフォーマットして提出する方法です。

主な発見

提供されたテキストには実証的な結果や方法論的知見は報告されていません。
厳格なページ制限（本文9ページ）と無制限の引用を明記している。
ICLR 2024 の LaTeX スタイルファイルとフォーマット制約の使用を規定している。
引用、図表のフォーマット規則を概説する。
US Letter サイズに対する PDF 作成の手順を提供する。
余白とグラフィック処理に関する指針を含む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。