[論文レビュー] When Text-as-Vision Meets Semantic IDs in Generative Recommendation: An Empirical Study
研究は標準的なテキスト埋め込みをOCRベースの視覚テキスト表現に置換し、Generative RecommendationのSemantic IDs学習を行い、単一モダリティおよびマルチモダリティ設定で堅牢な利得を示す。特に属性豊かな説明で顕著。
Semantic ID learning is a key interface in Generative Recommendation (GR) models, mapping items to discrete identifiers grounded in side information, most commonly via a pretrained text encoder. However, these text encoders are primarily optimized for well-formed natural language. In real-world recommendation data, item descriptions are often symbolic and attribute-centric, containing numerals, units, and abbreviations. These text encoders can break these signals into fragmented tokens, weakening semantic coherence and distorting relationships among attributes. Worse still, when moving to multimodal GR, relying on standard text encoders introduces an additional obstacle: text and image embeddings often exhibit mismatched geometric structures, making cross-modal fusion less effective and less stable. In this paper, we revisit representation design for Semantic ID learning by treating text as a visual signal. We conduct a systematic empirical study of OCR-based text representations, obtained by rendering item descriptions into images and encoding them with vision-based OCR models. Experiments across four datasets and two generative backbones show that OCR-text consistently matches or surpasses standard text embeddings for Semantic ID learning in both unimodal and multimodal settings. Furthermore, we find that OCR-based Semantic IDs remain robust under extreme spatial-resolution compression, indicating strong robustness and efficiency in practical deployments.
研究の動機と目的
- GRにおけるSemantic ID学習のためのテキストを視覚として扱う表現の評価を動機づける。
- OCRベースのテキスト表現と標準テキスト埋め込みを単一モダリティおよびマルチモダリティ設定で定量的に比較する。
- OCRエンコーダおよびレンダリング品質に対するOCRベースのSemantic IDの頑健性を評価する。
- OCRベース表現下でのマルチモーダルSemantic ID構築における統合戦略を分析する。
提案手法
- テキスト項目の説明を画像としてレンダリングし、OCRモデルでエンコードしてOCR-text埋め込みを得る。
- OCR-text埋め込みを単一モダリティおよびマルチモダリティのGRパイプライン全体のSemantic ID学習に組み込む。
- OCR-textと標準テキスト埋め込みをTIGERおよびLETTERバックボーンで早期融合と遅期融合の方式を用いて比較する。
- Leave-one-out逐次推奨を用いて4データセット全体をRecall@KおよびNDCG@Kで評価する。
- OCRエンコーダとレンダリング画像解像度を変化させて頑健性を評価する。

実験結果
リサーチクエスチョン
- RQ1RQ1: OCRベースのテキスト表現は単一モダリティSemantic ID学習において標準テキスト表現の代替になり得るか。
- RQ2RQ2: OCRベースのテキスト表現はマルチモダリティSemantic ID学習において標準テキスト表現の代替になり得るか。
- RQ3RQ3: OCRエンコーダとレンダリング品質の変動に対してOCRベースSemantic IDはどれほど頑健か。
主な発見
- OCR-textは、単一モダリティSemantic ID学習において標準テキスト埋め込みと同等またはそれ以上の性能を示すことが多く、属性密度の高いデータセットでより大きな利得が見られる。
- マルチモダリティの早期融合では、OCR-textはScientificおよびInstrumentsで一貫して性能を改善する一方、Artsでは利得が小さく、Luxuryでは中程度。
- 遅期融合下でもOCR-textは有効なドロップイン置換となり、データセットと指標を跨いで一貫した利得をもたらすことが多い。
- OCR-textの頑健性はレンダリング解像度を下げても高く、DeepSeek-OCR、Donut-base、TrOCR-baseなど異なるOCRエンコーダにも頑健である。
- データセットごとの分析では、属性スタイルの記述が密なデータセットでより大きな利益を示す一方、叙述スタイルの記述では利得が小さい。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。