Skip to main content
QUICK REVIEW

[论文解读] Before Smelling the Video: A Two-Stage Pipeline for Interpretable Video-to-Scent Plans

Kaicheng Wang, Keyong Shao|arXiv (Cornell University)|Jan 27, 2026
Olfactory and Sensory Function Studies被引用 0
一句话总结

本文提出一个两阶段的视频到香味规划流程,使用视觉–语言模型提取视觉语义,利用大语言模型生成结构化的香味规划;随后报告用户研究,系统生成的规划在比基线更受欢迎。

ABSTRACT

Olfactory cues can enhance immersion in interactive media, yet smell remains rare because it is difficult to author and synchronize with dynamic video. Prior olfactory interfaces rely on designer triggers and fixed event-to-odor mappings that do not scale to unconstrained content. This work examines whether semantic planning for smell is intelligible to people before physical scent delivery. We present a video-to-scent planning pipeline that separates visual semantic extraction using a vision-language model from semantic-to-olfactory inference using a large language model. Two survey studies compare system-generated scent plans with over-inclusive and naive baselines. Results show consistent preference for plans that prioritize perceptually salient cues and align scent changes with visible actions, supporting semantic planning as a foundation for future olfactory media systems.

研究动机与目标

  • 通过将语义提取与嗅觉推断分离来为视频实现嗅觉增强的动机。
  • 研究在实际物理香味释放前,语义香味规划是否能被人理解。
  • 评估系统生成的香味规划与人类对相关性和时间连贯性的期望的一致性。

提出的方法

  • 阶段1 使用视觉–语言模型(Gemini 3 Pro)从采样的视频帧中提取时间对齐的视觉语义。
  • 阶段2 使用大型语言模型(GPT-5.2)在固定气味模式下将视觉时间线转化为结构化的香味规划。
  • 输出是面向未来嗅觉接口的时间结构化香味规划,而非物理香味生成。
  • 两项在线调查研究将系统生成的香味规划与一个过度包容的基线和一个天真基线进行比较。
  • 参与者评估感知的嗅觉相关性、时间连贯性、沉浸感,以及与视频进展的一致性。
Figure 1. We introduce a two-stage video-to-scent planning pipeline that translates visual events in video into structured, human-interpretable scent plans, without generating physical scents. (A) A vision–language model (Gemini 3 Pro) processes uniformly sampled video frames to extract time-aligned
Figure 1. We introduce a two-stage video-to-scent planning pipeline that translates visual events in video into structured, human-interpretable scent plans, without generating physical scents. (A) A vision–language model (Gemini 3 Pro) processes uniformly sampled video frames to extract time-aligned

实验结果

研究问题

  • RQ1RQ1: 计算系统能多大程度生成被用户感知为在时间上连贯并与动态视频内容对齐的香味规划?
  • RQ2RQ2: 当设想为视频观看体验的一部分时,系统生成的香味规划是否被感知为可信且不具干扰性?

主要发现

  • 研究1发现系统生成的规划的平均等级最低(1.586),相较于过度包含基线(1.871)和天真基线(2.543)。
  • 系统规划在54.3%的试验中排名第一,优于两个基线。
  • Friedman检验显示各条件的聚合等级存在显著差异(χ²=19.36, p=6.26×10⁻⁵)。
  • 成对比较显示 System > Over 与 System > Naive,而 Over > Naive。
  • 定性回应显示参与者倾向于聚焦于主导嗅源而非穷尽覆盖所有可见元素,并强调香味变化的时机与动作瞬间的一致性。
  • 研究2报告参与者更偏好系统生成的规划在沉浸感、连贯性与较低干扰方面相对于过度包含基线,并认为时机与演变适当;关注点在描述性选择而非嗅觉增强的概念。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。