Skip to main content
QUICK REVIEW

[論文レビュー] Before Smelling the Video: A Two-Stage Pipeline for Interpretable Video-to-Scent Plans

Kaicheng Wang, Keyong Shao|arXiv (Cornell University)|Jan 27, 2026
Olfactory and Sensory Function Studies被引用数 0
ひとこと要約

論文は、視覚–言語モデルで視覚的意味論を抽出し、大規模言語モデルで構造化された香り計画を生成する2段階の動画→香り計画パイプラインを提示し、システム生成計画がベースラインより好まれるというユーザ調査を報告します。

ABSTRACT

Olfactory cues can enhance immersion in interactive media, yet smell remains rare because it is difficult to author and synchronize with dynamic video. Prior olfactory interfaces rely on designer triggers and fixed event-to-odor mappings that do not scale to unconstrained content. This work examines whether semantic planning for smell is intelligible to people before physical scent delivery. We present a video-to-scent planning pipeline that separates visual semantic extraction using a vision-language model from semantic-to-olfactory inference using a large language model. Two survey studies compare system-generated scent plans with over-inclusive and naive baselines. Results show consistent preference for plans that prioritize perceptually salient cues and align scent changes with visible actions, supporting semantic planning as a foundation for future olfactory media systems.

研究の動機と目的

  • 動画の意味情報抽出を香り推論と分離することで嗅覚 augmentationを動機付ける。
  • 意味情報としての香り計画が、物理的香りデリバリ前に人に理解可能かを調査する。
  • システム生成香り計画が、関連性と時間的整合性の人間期待とどの程度一致するかを評価する。

提案手法

  • Stage 1 は vision–language model (Gemini 3 Pro) を用いて、サンプリングされた動画フレームから時系列に整合した視覚意味論を抽出する。
  • Stage 2 は large language model (GPT-5.2) を用いて、視覚タイムラインを固定香気スキーマの下で構造化された香り計画へ変換する。
  • 出力は未来の嗅覚インターフェースを想定した時間的に整理された香り計画であり、実際の香り生成を意味するものではない。
  • オンライン調査2件で、システム生成香り計画を過剰包含型ベースラインおよびナイーブなベースラインと比較した。
  • 参加者は知覚される嗅覚の関連性、時間的一貫性、没入感、動画の進行との一貫性を評価した。
Figure 1. We introduce a two-stage video-to-scent planning pipeline that translates visual events in video into structured, human-interpretable scent plans, without generating physical scents. (A) A vision–language model (Gemini 3 Pro) processes uniformly sampled video frames to extract time-aligned
Figure 1. We introduce a two-stage video-to-scent planning pipeline that translates visual events in video into structured, human-interpretable scent plans, without generating physical scents. (A) A vision–language model (Gemini 3 Pro) processes uniformly sampled video frames to extract time-aligned

実験結果

リサーチクエスチョン

  • RQ1RQ1: 計算システムが、動的な動画内容と時間的に整合した香り計画をユーザーがどれだけ認識できるか。
  • RQ2RQ2: システム生成香り計画は、動画視聴体験の一部として想像した場合、もっともらしく妨げにならないと見なされるか。

主な発見

  • Study 1 では、システム生成計画の平均順位が最も低く (1.586)、過剰包含型が1.871、ナイーブが2.543。
  • システム計画は試行の54.3%で1位にランクされ、両ベースラインを上回った。
  • Friedman検定により、条件間の集計順位に有意差が認められた (χ²=19.36, p=6.26×10⁻⁵)。
  • 対比較検定では System > Over および System > Naive、Over > Naive。
  • 定性的回答から、参加者はすべての可視要素を網羅するよりも、支配的な嗅覚源へ焦点を当てることを好み、香り変化のタイミングを行動の瞬間と合わせることを強調した。
  • Study 2 では、参加者は没入感、整合性、低い気晴らしの点で過剰包含型ベースラインよりシステム生成計画を好み、タイミングと進化は適切と記述された一方、懸念は嗅覚 augmentation の概念よりも記述的選択に集中した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。