QUICK REVIEW

[論文レビュー] Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

Jian Sun, Mohammad H. Mahoor|arXiv (Cornell University)|Mar 11, 2026

Image and Video Quality Assessment被引用数 0

ひとこと要約

本論文は SSL-V3 を提案する。自己教師あり学習フレームワークでノーリファレンスのビデオ品質評価（VQA）とビデオビジョン変換器を共同統合し、VQA のラベル不足に対処しつつビデオ認識を改善する。2つのデータセットで頑健な結果を示し、I-CONECT のインタビュー動画で 94.87% の精度を達成している。

ABSTRACT

Video quality significantly affects video classification. We found this problem when we classified Mild Cognitive Impairment well from clear videos, but worse from blurred ones. From then, we realized that referring to Video Quality Assessment (VQA) may improve video classification. This paper proposed Self-Supervised Learning-based Video Vision Transformer combined with No-reference VQA for video classification (SSL-V3) to fulfill the goal. SSL-V3 leverages Combined-SSL mechanism to join VQA into video classification and address the label shortage of VQA, which commonly occurs in video datasets, making it impossible to provide an accurate Video Quality Score. In brief, Combined-SSL takes video quality score as a factor to directly tune the feature map of the video classification. Then, the score, as an intersected point, links VQA and classification, using the supervised classification task to tune the parameters of VQA. SSL-V3 achieved robust experimental results on two datasets. For example, it reached an accuracy of 94.87% on some interview videos in the I-CONECT (a facial video-involved healthcare dataset), verifying SSL-V3's effectiveness.

研究の動機と目的

ビデオ分類性能を向上させるために VQA の活用を動機づける。
VQA とビデオ認識を共同で学習する自己教師ありフレームワークを開発する。
Combined-SSL を活用して特徴マップを品質スコアを用いて調整し、VQA のラベル不足に対処する。

提案手法

自己教師あり学習とノーリファレンス VQA を組み合わせた video classification のための SSL-V3 を提案する。
Combined-SSL メカニズムを用いて VQA をビデオ分類パイプラインへ融合する。
ビデオ分類器の特徴マップをビデオ品質スコアを交差因子として調整する。
VQA と分類を教師付き分類タスクを通じて結びつけ、VQA パラメータを調整する。
2つのデータセットでの実験を通じて頑健性を示す。

実験結果

リサーチクエスチョン

RQ1ノーリファレンス VQA を効果的にビデオ認識へ統合して精度を向上させることができるか？
RQ2Combined-SSL は VQA と認識の共同学習に対してラベル効率の高い学習を可能にするか？
RQ3VQA による特徴調整がビデオ変換器ベースの認識性能にどのような影響を与えるか？

主な発見

SSL-V3 は2つのデータセットで頑健な実験結果を達成する。
I-CONECT のインタビュー動画で SSL-V3 は 94.87% の精度を達成する。
VQA 信号をビデオビジョン変 transformers に組み込むことの利点を示す。
Combined-SSL メカニズムにより品質スコアを用いた特徴マップ調整が可能となる。
本フレームワークは VQA のラベル不足を解消し、効果的な共同学習を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。