[论文解读] Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline
引入 MM-Lifelong,这是一个具有日/周/月尺度的多模态终身数据集,用于研究长时域理解,并提出递归多模态代理 ReMA,能够在终身流中克服记忆瓶颈。
While datasets for video understanding have scaled to hour-long durations, they typically consist of densely concatenated clips that differ from natural, unscripted daily life. To bridge this gap, we introduce MM-Lifelong, a dataset designed for Multimodal Lifelong Understanding. Comprising 181.1 hours of footage, it is structured across Day, Week, and Month scales to capture varying temporal densities. Extensive evaluations reveal two critical failure modes in current paradigms: end-to-end MLLMs suffer from a Working Memory Bottleneck due to context saturation, while representative agentic baselines experience Global Localization Collapse when navigating sparse, month-long timelines. To address this, we propose the Recursive Multimodal Agent (ReMA), which employs dynamic memory management to iteratively update a recursive belief state, significantly outperforming existing methods. Finally, we establish dataset splits designed to isolate temporal and domain biases, providing a rigorous foundation for future research in supervised learning and out-of-distribution generalization.
研究动机与目标
- 通过区分观测持续时间与物理时间跨度来定义多模态理解的终身视野。
- 创建 MM-Lifelong,一个具有多尺度、跨域的数据集,以模拟长期、稀疏、真实世界的流。
- 刻画端到端 MLLMs 和代理基线在终身时间线上的失效模式。
- 提出递归记忆驱动代理 ReMA,以管理动态记忆并提升长时域推理。
- 提供标准化的训练/验证/测试协议,以在时间/领域变化下实现鲁棒评估与泛化。
提出的方法
- 用两个新的时间度量(T_dur、T_span)和一个终身视野定义来形式化终身多模态任务。
- 以 Day/Week/Month 域构建 MM-Lifelong,总计 181.1 小时,用以模拟具有不同稀疏度的连续生命时段。
- 使用线索-地面真相标注来实现时间定位,并提供两种任务类型(Needle-in-a-Lifestream、Multi-Hop Reasoning)的注释。
- 引入递归多模态代理(ReMA),通过两阶段循环构建语言增强的信念状态:感知到记忆,然后进行记忆驱动控制动作的递归推理(Answer、MMInspect、MemSearch)。
- 对端到端 MLLMs 和代理基线进行基准测试,揭示上下文瓶颈,并证明 ReMA 在终身任务上的更高准确率和定位能力。

实验结果
研究问题
- RQ1在具有稀疏时间跨度和领域漂移的终身视野约束下,当前的多模态学习者表现如何?
- RQ2一个递归的、记忆增强的代理(ReMA)能否在终身、多模态流上超越端到端的 MLLMs?
- RQ3维持跨日到跨周的性能,需要的有效记忆更新粒度和推理深度是什么?
- RQ4线索-地面注释是否能够在多时间尺度下实现鲁棒评估和定位?
- RQ5不同骨干模型(控制器与 MLLM 工具)对终身推理与定位有多大影响?
主要发现
- 端到端的 MLLMs 随着上下文扩展而出现工作记忆瓶颈,性能趋于饱和或下降。
- 依赖全局视频定位的代理基线在月尺度稀疏性下崩溃,而 ReMA 通过递归和动态记忆实现扩展。
- ReMA 在 Month 的 Val@Month 上达到最高准确率(18.62%),在 Month/Week/Day 集上最强的定位(Ref@300 为 16.37%)。
- 更细的感知粒度(如 Δt = 2 分钟)可以提升准确性和定位能力;但全视频粒度因噪声和推理成本而降低性能。
- 使用多模态骨干(MLLMs)进行感知与控制比仅文本控制器取得更好结果,体现多模态对生命周期推理对齐的重要性。
- GPT-5 在自动评估中作为评审的可靠性很高(F1 约 99.4%)。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。