[论文解读] VideoSTF: Stress-Testing Output Repetition in Video Large Language Models
VideoSTF引入三种基于n-gram的指标来衡量VideoLLMs的输出重复性,提供包含10,000个视频的测试平台并含时间压力因素,并在10个VideoLLMs中展示广泛、时间敏感的重复性与易受攻击的黑盒攻击。
Video Large Language Models (VideoLLMs) have recently achieved strong performance in video understanding tasks. However, we identify a previously underexplored generation failure: severe output repetition, where models degenerate into self-reinforcing loops of repeated phrases or sentences. This failure mode is not captured by existing VideoLLM benchmarks, which focus primarily on task accuracy and factual correctness. We introduce VideoSTF, the first framework for systematically measuring and stress-testing output repetition in VideoLLMs. VideoSTF formalizes repetition using three complementary n-gram-based metrics and provides a standardized testbed of 10,000 diverse videos together with a library of controlled temporal transformations. Using VideoSTF, we conduct pervasive testing, temporal stress testing, and adversarial exploitation across 10 advanced VideoLLMs. We find that output repetition is widespread and, critically, highly sensitive to temporal perturbations of video inputs. Moreover, we show that simple temporal transformations can efficiently induce repetitive degeneration in a black-box setting, exposing output repetition as an exploitable security vulnerability. Our results reveal output repetition as a fundamental stability issue in modern VideoLLMs and motivate stability-aware evaluation for video-language systems. Our evaluation code and scripts are available at: https://github.com/yuxincao22/VideoSTF_benchmark.
研究动机与目标
- 将输出重复性确认为VideoLLMs中的一种独立的生成稳定性失效模式。
- 开发VideoSTF以在标准化度量和测试平台下测量、压力测试和分析重复性。
- 评估时间性扰动如何影响不同VideoLLMs中的重复性。
- 展示简单时间变换作为黑盒攻击的对抗潜力。
提出的方法
- 用三种互补的n-gram指标来形式化重复性:重复率(RR)、重复强度(RI)和信息熵(IE)。
- 创建一个包含来自公开数据集且时长及内容多样的10,000个视频的标准化测试平台。
- 开发一个时间扰动库,含添加(Add)、删除(Delete)、替换(Replace)、翻转(Reverse)和洗牌(Shuffle)变换以进行重复性压力测试。
- 在10个具有代表性的视频LLMs上进行广泛测试、时间压力测试与在确定性解码下的对抗利用。
- 在保持语义内容不变的前提下,分析时间性变换如何影响重复性。
- 提供开源的评测工具包与脚本以便复现。
实验结果
研究问题
- RQ1输出重复性是否是当代VideoLLMs中普遍存在的生成稳定性问题?
- RQ2受控时间扰动如何影响VideoLLMs中的重复性?
- RQ3时间变换是否可作为黑盒攻击,用以诱导VideoLLMs产生重复性退化?
- RQ4在不同模型架构和基线之间,重复性的相对严重程度如何?
- RQ5哪种诊断框架能比任务准确性与事实性更好地捕捉重复性?
主要发现
- 输出重复性在10个VideoLLMs中普遍存在,与底层基础大型语言模型无关。
- 时间变换显著放大重复性,在某些情况下重复率超过90%。
- 时间扰动可作为高效的黑盒攻击,少量查询即可诱导重复(高ASR,低AQ)。
- 具有纯视频或本地多模态骨干网的模型在变换下仍表现出重复性,显示出广泛的可靠性关注。
- 三种指标(RR、RI、IE)共同区分了孤立的重复与持续的退化。
- 一个包含多样内容的10,000视频测试平台支持对重复现象的稳健测量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。