Skip to main content
QUICK REVIEW

[論文レビュー] PRISM: Learning Design Knowledge from Data for Stylistic Design Improvement

Huaxiaoyue Wang, Sunav Choudhary|arXiv (Cornell University)|Jan 16, 2026
Design Education and Practice被引用数 0
ひとこと要約

PRISM は実世界のデザインから設計知識ベースを学習し、スタイル認識を用いた改善を導く。スタイル空間のクラスタリング、対照的な知識抽出、 priors を取り入れた retrieval-augmented generation(RAG)パイプラインを用い、スタイル整合性の優れた結果と Crello データでデザイナーに好まれることを示す。

ABSTRACT

Graphic design often involves exploring different stylistic directions, which can be time-consuming for non-experts. We address this problem of stylistically improving designs based on natural language instructions. While VLMs have shown initial success in graphic design, their pretrained knowledge on styles is often too general and misaligned with specific domain data. For example, VLMs may associate minimalism with abstract designs, whereas designers emphasize shape and color choices. Our key insight is to leverage design data -- a collection of real-world designs that implicitly capture designer's principles -- to learn design knowledge and guide stylistic improvement. We propose PRISM (PRior-Informed Stylistic Modification) that constructs and applies a design knowledge base through three stages: (1) clustering high-variance designs to capture diversity within a style, (2) summarizing each cluster into actionable design knowledge, and (3) retrieving relevant knowledge during inference to enable style-aware improvement. Experiments on the Crello dataset show that PRISM achieves the highest average rank of 1.49 (closer to 1 is better) over baselines in style alignment. User studies further validate these results, showing that PRISM is consistently preferred by designers.

研究の動機と目的

  • 特定のデザインデータに合わせたスタイリスティックなデザイン改善の必要性を、一般的な VLM の知識に依存せず動機づける。
  • スタイル認識編集のためのデザイン知識ベースを構築・活用する3段階のフレームワークを提案する。
  • 知識情報を取り入れた編集がスタイル整合性と出力多様性を実デザインデータ上で改善することを示す。
  • Crello データ上で定量的指標とデザイナー品質のユーザースタディで所見を検証する。

提案手法

  • GRAD に基づく距離を計算してスタイル空間を分割し、K-medoids でデザインをクラスタリングしてスタイル内の多様性を捉える。
  • クラスタごとに、クラスタ文脈内の陽性・陰性例を用いた対照学習フレームワークを通じて、簡潔で実用的なデザイン知識を蒸留する。
  • 推論時に学習済みデザイン知識を取り入れ、比例的 Retrieval-Augmented Generation (RAG) パイプラインを介してスタイル整合した編集を生成する。
  • 二段階のリトリーバルを使用:(i) 指示とデザインキャプション(単一変異)と照合して知識要約を選択、または (ii) クラスタサイズに比例して複数の変異をサンプリング。
  • retrieved 知識に条件付けされた VLM プランナーを用いてデザイン計画を生成し、元デザインを基に画像拡散モデルで編集する。

実験結果

リサーチクエスチョン

  • RQ1デザインデータをどのように組織化して、グラフィックデザインの特定のスタイルタグ内の多様性を捉えられるか?
  • RQ2対照的な知識抽出プロセスは、各スタイルクラスタ内でコンパクトで実践的かつ識別性の高いデザイン指針を生み出せるか?
  • RQ3prior information を取り入れた知識を retrieval-augmented generation 経由で組み込むと、データに整列したスタイルへの忠実度と出力の多様性が推論時に向上するか?
  • RQ4デザイナーのユーザーは、実デザインデータセット上で PRISM のスタイル整合編集をベースラインより好むか?

主な発見

  • PRISM は Crello の15スタイルにおいて、 fidelity(忠実度) ~0.999、diversity(多様性) ~0.684 でベースラインの中で最も高い忠実性と多様性のバランスを達成。
  • PRISM はスタイル整合性の平均順位で 1.49/5 の最良を獲得。
  • 定量的結果は、PRISM がデータ駆動デザインスタイルへ出力を整合させる点で Prompt2Diverse や競合ベースラインを上回る。
  • デザイナーを対象としたユーザースタディでは、PRISM の出力が要求されたスタイルへの整合と多様性の面で一貫して好まれる。
  • アブレーション研究は、忠実度と多様性の向上において陰性例と比例的リトリーバルの重要性を確認。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。