QUICK REVIEW

[論文レビュー] EfficientPosterGen: Semantic-aware Efficient Poster Generation via Token Compression and Accurate Violation Detection

Wenxin Tang, Jingyu Xiao|arXiv (Cornell University)|Feb 25, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

EfficientPosterGenは三部構成のフレームワーク（SKIR、VCC、ALVD）を導入し、論文全体からポスターを生成する際のトークン使用量を大幅に削減し、レイアウト検証を信頼できるようにします。

ABSTRACT

Automated academic poster generation aims to distill lengthy research papers into concise, visually coherent presentations. Existing Multimodal Large Language Models (MLLMs) based approaches, however, suffer from three critical limitations: low information density in full-paper inputs, excessive token consumption, and unreliable layout verification. We present EfficientPosterGen, an end-to-end framework that addresses these challenges through semantic-aware retrieval and token-efficient multimodal generation. EfficientPosterGen introduces three core innovations: (1) Semantic-aware Key Information Retrieval (SKIR), which constructs a semantic contribution graph to model inter-segment relationships and selectively preserves important content; (2) Visual-based Context Compression (VCC), which renders selected text segments into images to shift textual information into the visual modality, significantly reducing token usage while generating poster-ready bullet points; and (3) Agentless Layout Violation Detection (ALVD), a deterministic color-gradient-based algorithm that reliably detects content overflow and spatial sparsity without auxiliary MLLMs. Extensive experiments demonstrate that EfficientPosterGen achieves substantial improvements in token efficiency and layout reliability while maintaining high poster quality, offering a scalable solution for automated academic poster generation. Our code is available at https://github.com/vinsontang1/EfficientPosterGen-Code.

研究の動機と目的

長い論文からポスターを生成する際の高いトークンコストと情報密度の低さに対処する。
意味的認識情報検索を通じて顕著な内容を選択的に保持する。
テキストを画像としてレンダリングして文脈を圧縮し、テキストトークンを削減する。
コストの高いMLLMベースの検証を伴わずに、レイアウト妥当性を決定論的に検証する。
ポスターの品質を維持または向上させつつ、スケーラブルな自動化を実現する。

提案手法

意味認識キ情報検索（SKIR）は、段落セグメントから意味的貢献グラフを構築して顕著な内容を識別する。
ビジュアルベースのコンテキスト圧縮（VCC）は、選択されたテキストセグメントを画像にレンダリングして情報を視覚モードに移し、トークン入力を削減する。
エージェントレスレイアウト違反検出（ALVD）は、追加のMLLMなしに内容のオーバーフローと空疎を検出する決定論的なカラーグラデーションベースのアルゴリズムを使用する。
ポスターパネル生成は二分木レイアウトとMLLMを用いて、画像入力から構造化された箇条書きを生成する。
多様性認識セグメント選択（DASS）は、PageRankベースの重要度とLCAベースのペナルティによる構造的多様性を組み合わせて、多様なカバレッジを確保する。

実験結果

リサーチクエスチョン

RQ1RQ1: EfficientPosterGenはベースラインと比較してポスター品質とトークン効率の面でどうか。
RQ2RQ2: 主要ハイパーパラメータはフレームワークの性能にどう影響するか。
RQ3RQ3: SKIR、VCC、ALVDの各貢献は全体性能にどのように影響するか。
RQ4RQ4: EfficientPosterGenのポスターとベースラインとの定性的な違いは何か。

主な発見

EfficientPosterGenはほとんどの指標で最高または2番目の性能を達成し、かなり少ないトークンで実現する（Ours-5: 21.38K トークン; Ours-Qwen: 10.33K トークン; PosterAgentはより高いトークンコストを要する）。
エージェントレスのレイアウト違反検出は、MLLMベースの手法とは異なり、レイアウト検証の追加トークンコストを排除する。
フレームワークは PaperQuiz スコアをより高く（Ours-5: 119.51; Ours-Qwen: 152.74）し、PosterAgentよりそれぞれ9.49点および7.11点上回る。
ビジュアルベースのコンテキスト圧縮は、内容を画像としてレンダリングすることによりテキストトークンを削減し、ポスター品質を損なうことなく大幅なトークン効率を実現する。
アブレーション研究は、各モジュールがトークン効率とレイアウト信頼性に寄与することを示し、特にALVDがトークン節約に大きく影響する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。