[論文レビュー] Exploring Rich Subjective Quality Information for Image Quality Assessment in the Wild
RichIQAは、三段階の CvT ベースのネットワークを導入し、画像品質を分布として予測します(MOS、SOS、DOS)、マルチラベル学習戦略を用い、野外 IQA データベースで最先端手法を上回る。
Traditional in the wild image quality assessment (IQA) models are generally trained with the quality labels of mean opinion score (MOS), while missing the rich subjective quality information contained in the quality ratings, for example, the standard deviation of opinion scores (SOS) or even distribution of opinion scores (DOS). In this paper, we propose a novel IQA method named RichIQA to explore the rich subjective rating information beyond MOS to predict image quality in the wild. RichIQA is characterized by two key novel designs: (1) a three-stage image quality prediction network which exploits the powerful feature representation capability of the Convolutional vision Transformer (CvT) and mimics the short-term and long-term memory mechanisms of human brain; (2) a multi-label training strategy in which rich subjective quality information like MOS, SOS and DOS are concurrently used to train the quality prediction network. Powered by these two novel designs, RichIQA is able to predict the image quality in terms of a distribution, from which the mean image quality can be subsequently obtained. Extensive experimental results verify that the three-stage network is tailored to predict rich quality information, while the multi-label training strategy can fully exploit the potentials within subjective quality rating and enhance the prediction performance and generalizability of the network. RichIQA outperforms state-of-the-art competitors on multiple large-scale in the wild IQA databases with rich subjective rating labels. The code of RichIQA will be made publicly available on GitHub.
研究の動機と目的
- MOSだけでなく、in-the-wild IQA で豊富な主観的品質情報を活用する動機づけ。
- 単一スコアではなく画像品質分布(MOS、SOS、DOS)を予測するネットワークを開発する。
- 品質予測を改善するために記憶に触発されたメカニズムを取り入れる。
- MOS、SOS、DOSを活用したマル LABEL 学習戦略を用いて、さまざまなデータベースで訓練を可能にする。
提案手法
- CvT(Convolutional Vision Transformer)を用いたマルチレベル特徴抽出の三段階品質予測ネットワークを提案。
- CNNと Graph Convolution Network(GCN)を用いて短期記憶と長期記憶をモデル化し、品質評価における人間の記憶機構を模倣。
- 画像品質分布(DOS)と平均 MOS を予測し、記憶ベースの決定とアルゴリズム的決定を組み合わせる。
- 記憶ベースの DOS(dmem)とアルゴリズム DOS(dalg)が融合して dp と MOSp を得るデュアルパス品質決定フレームワークを使用。
- MOS、DOS、SOS を利用できる場合に multi-label 戦略で訓練し、EMD と Gaussian ベースの損失で予測分布を ground-truth 評価に合わせる。
実験結果
リサーチクエスチョン
- RQ1rich subjective quality information (MOS, SOS, DOS) を活用して野外 IQA を改善するにはどうすればよいか。
- RQ2三段階ネットワークアーキテクチャは、単一の MOS ではなく完全な品質分布を効果的に予測できるか。
- RQ3記憶に触発されたメカニズムは、多様な in-the-wild IQA データベース間のロバスト性と一般化を改善するか。
- RQ4MOS/DOS/SOS を用いたマルチラベル学習は、MOS のみの訓練と比較して予測精度と一般化にどのように影響するか。
主な発見
- RichIQA は複数の大規模な in-the-wild IQA データベースで最先端手法を上回る。
- 三段階 CvT ベースのネットワークは、MOS、SOS、DOS を含むリッチな品質情報を効果的に予測する。
- MOS、DOS、SOS を活用したマルチラベル訓練は、データセット間の予測性能と一般化を向上させる。
- DOS および SOS を提供するデータベースで、MOS 予測性能が優れ、DOS 予測指標も改善する。
- アプローチは計算効率が高く、訓練設定と初期化が好ましい。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。