[論文レビュー] Advancing Zero-Shot Digital Human Quality Assessment through Text-Prompted Evaluation
本論文はSJTU-H3Dを初の大規模な全身DHQAデータベースとして導入し、テキストプロンプトによる意味的親和性、空間的自然さ、幾何学的損失の指標を用いたゼロショット・ノーリファレンスのデジタルヒューマン品質指標(DHQI)を提案する。手法はCLIPベースの意味論、NIQE、二面角メッシュ幾何を活用し、強力なゼロショット性能を実現する。
Digital humans have witnessed extensive applications in various domains, necessitating related quality assessment studies. However, there is a lack of comprehensive digital human quality assessment (DHQA) databases. To address this gap, we propose SJTU-H3D, a subjective quality assessment database specifically designed for full-body digital humans. It comprises 40 high-quality reference digital humans and 1,120 labeled distorted counterparts generated with seven types of distortions. The SJTU-H3D database can serve as a benchmark for DHQA research, allowing evaluation and refinement of processing algorithms. Further, we propose a zero-shot DHQA approach that focuses on no-reference (NR) scenarios to ensure generalization capabilities while mitigating database bias. Our method leverages semantic and distortion features extracted from projections, as well as geometry features derived from the mesh structure of digital humans. Specifically, we employ the Contrastive Language-Image Pre-training (CLIP) model to measure semantic affinity and incorporate the Naturalness Image Quality Evaluator (NIQE) model to capture low-level distortion information. Additionally, we utilize dihedral angles as geometry descriptors to extract mesh features. By aggregating these measures, we introduce the Digital Human Quality Index (DHQI), which demonstrates significant improvements in zero-shot performance. The DHQI can also serve as a robust baseline for DHQA tasks, facilitating advancements in the field. The database and the code are available at https://github.com/zzc-1998/SJTU-H3D.
研究の動機と目的
- 全身デジタルヒューマンの perceptual quality アセスメントデータベース(SJTU-H3D)を作成し、DHQA研究とベンチマーキングの可能性を開く。
- ラベル付きデータセットを超えた一般化を目指すゼロショット・ノーリファレンスのDHQA手法を開発する。
- 意味的・空間的・幾何的手がかりを統合し、DHQAタスクに適した頑健なDHQIを形成する。
提案手法
- 7つの歪みタイプにわたる40の高品質テクスチャ付きメッシュ参照と1,120の歪みインスタンスを含むSJTU-H3Dを構築。
- 意味的・空間的品質分析の入力として6つのキューブ状ビューの投影を使用。
- 正/負のテキストプロンプトとともにCLIPベースの意味的親和性を用いて意味的品質スコアを取得。
- NIQEを組み込み、低レベルの空間歪みを捉え、それを統合のために正規化。
- メッシュから二面角ベースの幾何学的損失を抽出し、構造的劣化を定量化して品質スコアへマッピング。
- 意味的・空間的・幾何学的指標を総和で集約しDHQIを形成。
実験結果
リサーチクエスチョン
- RQ1ゼロショット・ノーリファレンスのフレームワークは、主観的評価データに依存せずデジタルヒューマン品質をどう評価できるか?
- RQ2意味・空間・幾何のマルチモーダル組み合わせはDHQAの generalization と robust性を向上させるか?
- RQ3テキストプロンプト付きCLIPベースの意味測定と低レベルNIQEおよび幾何指標の組み合わせは、全身デジタルヒューマンの知覚品質を信頼性高く予測するか?
主な発見
- SJTU-H3Dは40の参照と1,120の歪みを持つ初の大規模全身DHQAデータベースを提供する。
- 提案するDHQIはゼロショット性能を向上させ、教師あり手法と競合できる。
- 三分岐の品質指標(意味的親和性、空間的自然さ、幾何学的損失)を微調整なしで効果的に集約できる。
- 品質関連のテキストペアを用いたCLIPベースの意味的プロンプトは、3D投影における内容依存の歪みをとらえる。
- 二面角幾何_DESCRIPTORは歪みレベルと相関し、頑健な幾何学的損失の測定を支える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。