[论文解读] Lucid Data Dreaming for Object Tracking
本文提出了「清晰數據夢想」(Lucid Data Dreaming)訓練策略,透過單一標註首幀合成域內視頻畫格,大幅降低物件追蹤的標註需求。透過為每段視頻生成真實感的未來畫格進行訓練,該方法在三個基準測試中達成最尖端的表現,使用的資料量僅為先前方法的 20x–100x,超越更大規模、領域不匹配的資料集,且無需使用 ImageNet 預訓練。
Convolutional networks reach top quality in pixel-level object tracking but require a large amount of training data (1k ~ 10k) to deliver such results. We propose a new training strategy which achieves state-of-the-art results across three evaluation datasets while using 20x ~ 100x less annotated data than competing methods. Instead of using large training sets hoping to generalize across domains, we generate in-domain training data using the provided annotation on the first frame of each video to synthesize ("lucid dream") plausible future video frames. In-domain per-video training data allows us to train high quality appearance- and motion-based models, as well as tune the post-processing stage. This approach allows to reach competitive results even when training from only a single annotated frame, without ImageNet pre-training. Our results indicate that using a larger training set is not automatically better, and that for the tracking task a smaller training set that is closer to the target domain is more effective. This changes the mindset regarding how many training samples and general "objectness" knowledge are required for the object tracking task.
研究动机与目标
- 透過生成領域特定的訓練資料,減少物件追蹤對大規模、多樣化訓練資料集的依賴。
- 僅使用每段視頻的單一標註幀,提升追蹤表現,並消除對 ImageNet 預訓練的需求。
- 探討較小、域內的訓練集是否在物件追蹤中優於較大、通用領域的資料集。
- 開發一種資料合成策略,使外觀與運動模型能以極少的人工標註資料有效訓練。
提出的方法
- 該方法利用首幀標註作為條件信號,為每段視頻生成合理的未來視頻畫格,創造針對目標域的合成訓練資料。
- 合成畫格用於在追蹤架構內端到端訓練外觀與運動模型,實現領域特定的特徵學習。
- 該方法支援使用生成的域內資料對每段視頻的後處理階段進行微調,提升追蹤的穩健性。
- 資料生成採用條件式視頻合成模型,利用時間一致性與視覺合理性,產生逼真的未來畫格。
- 訓練流程設計為每段視頻可擴展,使新追蹤序列能以最少的標註快速適應。
实验结果
研究问题
- RQ1僅從單一標註幀合成域內資料,是否能達成優於大規模通用領域資料集的追蹤表現?
- RQ2在減少訓練資料量的同時提升領域一致性,是否能帶來更高的追蹤準確度?
- RQ3是否能僅透過使用合成的、領域特定的資料,在無需 ImageNet 預訓練的情況下達成高品質追蹌?
- RQ4資料合成在提升追蹤系統中外觀與運動模型學習方面的有效性如何?
主要发现
- 所提出的方法僅使用每段視頻 1–10 個標註幀,就在三個標準追蹤基準測試中達成最尖端表現,相較於先前方法,資料需求減少 20x 至 100x。
- 當訓練資料與目標領域不匹配時,其表現仍超越在大規模資料集上訓練的模型,顯示領域對齊優於資料規模。
- 即使僅從單一標註幀開始訓練,該方法仍能達成具競爭力的結果,且無需依賴 ImageNet 預訓練。
- 消融實驗確認,域內資料合成能帶來比使用具領域偏移的大規模多樣化資料集更好的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。