[論文レビュー] VideoSTF: Stress-Testing Output Repetition in Video Large Language Models
VideoSTFは出力の反復を測定するための三つのn-gramベース指標を導入し、タイムスタンプを含む10,000本の映像テストベッドを提供し、VideoLLMs全体で広範かつ時間依存的な反復と脆弱なブラックボックス攻撃を10個のVideoLLMsにまたがって実証する。
Video Large Language Models (VideoLLMs) have recently achieved strong performance in video understanding tasks. However, we identify a previously underexplored generation failure: severe output repetition, where models degenerate into self-reinforcing loops of repeated phrases or sentences. This failure mode is not captured by existing VideoLLM benchmarks, which focus primarily on task accuracy and factual correctness. We introduce VideoSTF, the first framework for systematically measuring and stress-testing output repetition in VideoLLMs. VideoSTF formalizes repetition using three complementary n-gram-based metrics and provides a standardized testbed of 10,000 diverse videos together with a library of controlled temporal transformations. Using VideoSTF, we conduct pervasive testing, temporal stress testing, and adversarial exploitation across 10 advanced VideoLLMs. We find that output repetition is widespread and, critically, highly sensitive to temporal perturbations of video inputs. Moreover, we show that simple temporal transformations can efficiently induce repetitive degeneration in a black-box setting, exposing output repetition as an exploitable security vulnerability. Our results reveal output repetition as a fundamental stability issue in modern VideoLLMs and motivate stability-aware evaluation for video-language systems. Our evaluation code and scripts are available at: https://github.com/yuxincao22/VideoSTF_benchmark.
研究の動機と目的
- VideoLLMsにおける反復を、生成安定性の逸脱モードとして特定する。
- 標準化された指標とテストベッドで、反復を測定・ストレス検証・分析するVideoSTFを開発する。
- 時間的撹乱が多様なVideoLLMsにおける反復に与える影響を評価する。
- 単純な時間変換の対へブラックボックス攻撃としての敵対的可能性を示す。
提案手法
- 反復を補完的な三つのn-gram指標で形式化する:Repetition Rate (RR)、Repetition Intensity (RI)、Information Entropy (IE)。
- 公開データセットから多様な長さと内容を持つ10,000本の映像の標準化されたテストベッドを作成する。
- Add、Delete、Replace、Reverse、Shuffleの変換を備えた時間的ストレッサーライブラリを開発し、反復をストレステストする。
- 決定的デコード下で10個の代表的なVideoLLMsに対して広範なテスト、時間的ストレステスト、敵対的活用を実施する。
- 時間的変換が意味内容を保持しつつ反復に与える影響を分析する。
- 再現性のためのオープンソースの評価ツールキットとスクリプトを提供する。
実験結果
リサーチクエスチョン
- RQ1出力の反復は現代のVideoLLMs全体で蔓延する生成安定性の課題か。
- RQ2制御された時間的撹乱はVideoLLMsの反復にどのような影響を与えるか。
- RQ3時間的変換はブラックボックス攻撃として反復の退行を誘発できるか。
- RQ4モデルアーキテクチャやベースライン間で反復の相対的深刻度はどう異なるか。
- RQ5タスクの正確性や事実性を超える反復を最もよくとらえる診断フレームワークは何か。
主な発見
- 出力の反復は10個のVideoLLMs全体に蔓延しており、基盤となるベースLLMに依存しない。
- 時間的変換は反復を大幅に増幅し、いくつかのケースでは反復率が90%を超える。
- 時間的撹乱は効率的なブラックボックス攻撃として機能し、少数のクエリで反復を誘発できる(高ASR、低AQ)。
- ビデオのみのバックボーンやネイティブなマルチモーダルバックボーンを持つモデルでも、変換下で反復を示し、広範な信頼性の懸念を示す。
- 三つの指標(RR、RI、IE)は孤立した反復と長期的な退行を区別する。
- 多様な内容を含む10,000本の映像テストベッドは反復現象の頑健な測定を支える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。