Skip to main content
QUICK REVIEW

[論文レビュー] Arbitrary Ratio Feature Compression via Next Token Prediction

Yufan Liu, Daoyuan Ren|arXiv (Cornell University)|Feb 12, 2026
Advanced Image and Video Retrieval Techniques被引用数 0
ひとこと要約

ARFCフレームワークは、次トークン予測により単一の訓練モデルで任意の圧縮比率を実現し、Mixture of Solutions(MoS)と Entity Relation Graph Constraint(ERGC)を補強して頑健性と構造の維持を向上させる。

ABSTRACT

Feature compression is increasingly important for improving the efficiency of downstream tasks, especially in applications involving large-scale or multi-modal data. While existing methods typically rely on dedicated models for achieving specific compression ratios, they are often limited in flexibility and generalization. In particular, retraining is necessary when adapting to a new compression ratio. To address this limitation, we propose a novel and flexible Arbitrary Ratio Feature Compression (ARFC) framework, which supports any compression ratio with a single model, eliminating the need for multiple specialized models. At its core, the Arbitrary Ratio Compressor (ARC) is an auto-regressive model that performs compression via next-token prediction. This allows the compression ratio to be controlled at inference simply by adjusting the number of generated tokens. To enhance the quality of the compressed features, two key modules are introduced. The Mixture of Solutions (MoS) module refines the compressed tokens by utilizing multiple compression results (solutions), reducing uncertainty and improving robustness. The Entity Relation Graph Constraint (ERGC) is integrated into the training process to preserve semantic and structural relationships during compression. Extensive experiments on cross-modal retrieval, image classification, and image retrieval tasks across multiple datasets demonstrate that our method consistently outperforms existing approaches at various compression ratios. Notably, in some cases, it even surpasses the performance of the original, uncompressed features. These results validate the effectiveness and versatility of ARFC for practical, resource-constrained scenarios.

研究の動機と目的

  • 柔軟な特徴量圧縮を動的なリソース制約に対応するため、各比率ごとに再訓練せずに扱えることを動機づける。
  • 任意の圧縮比をサポートする単一モデル Arbitrary Ratio Compressor (ARC) を導入し、次トークン予測を用いる。
  • クロスソリューション精錬のためのMixture of Solutions(MoS)と、意味/幾何関係を保持するためのEntity Relation Graph Constraint(ERGC)を用いて圧縮特徴を強化する。
  • 従来手法と比較して、クロスモーダル検索、画像分類、画像検索タスクで優れた性能を示す。

提案手法

  • ARCは前文脈を与えられた次のトークンを予測することで基本的な圧縮特徴を生成するトランスフォーマー系自己回帰モデルを用いる。
  • 任意のターゲット圧縮比はARC生成トークン列の先頭部分を選択することで実現される。
  • MoSは複数の基本圧縮解決案をクロスソリューションアテンションと学習可能な圧縮トークンにより精錬し、最終的な洗練された特徴を作成する。
  • ERGCは元特徴と圧縮特徴のエンティティ関係グラフを構築し、それらのエッジ(コサイン類似度)行列の差を最小化して関係性構造を保持する。
  • 訓練は比率の広いカバレッジを確保するためβ分布サンプリングを用いた漸進的圧縮戦略を採用する。

実験結果

リサーチクエスチョン

  • RQ1単一モデルで各比率ごとに再訓練せずに特徴を任意の比率に圧縮できるか?
  • RQ2MoSとERGCは圧縮時の頑健性と意味/関係性の構造保持を向上させるか?
  • RQ3ARFCは複数タスクとデータセットで最先端の特徴圧縮手法と比較してどうか?
  • RQ4圧縮特徴の品質は、一定の比率下で非圧縮特徴と競合する、または優位になるか?

主な発見

  • ARFCは、複数の圧縮比においてクロスモーダル検索、画像分類、画像検索で競合手法(Q-Former、Autoencoder、PTQ)を一貫して上回る。
  • Flickr30KおよびFlickr30K-CNでは、50%圧縮で基準を上回るR@1、R@5、R@10を達成し、場合によっては基準の非圧縮特徴を上回る。
  • 多くのシナリオで損失ゼロの圧縮が最大75%達成可能(要約/導入文の記述) 。
  • ARCは再訓練なしで柔軟な圧縮を実現し、MoS+ERGCは比率を超えて頑健性と関係性構造の保持を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。