Skip to main content
QUICK REVIEW

[论文解读] Sketch-based 3D Shape Retrieval using Convolutional Neural Networks

Fang Wang, Le Kang|arXiv (Cornell University)|Apr 14, 2015
3D Shape Modeling and Analysis参考文献 20被引用 129
一句话总结

本文提出了一种基于草图的3D形状检索方法,通过仅使用每个3D模型的两个预设视角来规避主观‘最佳视角’选择的需要,并利用两个孪生卷积神经网络(CNN)学习草图和视角的深度特征。该方法通过联合损失函数学习跨域相似性,在三个基准数据集上显著优于最先进方法,各项指标(精确率、召回率和mAP)均表现出色。

ABSTRACT

Retrieving 3D models from 2D human sketches has received considerable attention in the areas of graphics, image retrieval, and computer vision. Almost always in state of the art approaches a large amount of "best views" are computed for 3D models, with the hope that the query sketch matches one of these 2D projections of 3D models using predefined features. We argue that this two stage approach (view selection -- matching) is pragmatic but also problematic because the "best views" are subjective and ambiguous, which makes the matching inputs obscure. This imprecise nature of matching further makes it challenging to choose features manually. Instead of relying on the elusive concept of "best views" and the hand-crafted features, we propose to define our views using a minimalism approach and learn features for both sketches and views. Specifically, we drastically reduce the number of views to only two predefined directions for the whole dataset. Then, we learn two Siamese Convolutional Neural Networks (CNNs), one for the views and one for the sketches. The loss function is defined on the within-domain as well as the cross-domain similarities. Our experiments on three benchmark datasets demonstrate that our method is significantly better than state of the art approaches, and outperforms them in all conventional metrics.

研究动机与目标

  • 解决基于草图的3D形状检索中‘最佳视角’选择的不稳定性与主观性问题。
  • 通过学习草图和3D模型视角的判别性表征,消除对手工设计特征的依赖。
  • 通过联合特征学习与相似性对齐,提升2D草图与3D模型投影之间的跨域匹配性能。
  • 证明在结合深度特征学习的前提下,仅使用最少的视角选择(仅两个方向)即可超越复杂的多视角策略。
  • 验证基于领域特定架构的孪生CNN在跨域形状检索中的有效性。

提出的方法

  • 每个3D模型仅使用两个固定且显著不同的视角,假设模型为直立方向,以替代复杂的‘最佳视角’选择过程。
  • 采用两个独立的孪生CNN——一个用于草图,一个用于3D模型视角——每个均具有领域特定的网络架构,以捕捉内在差异。
  • 定义一个联合损失函数,鼓励域内高相似性(草图-草图、视角-视角)以及域间高相似性(草图-视角)以实现匹配。
  • 在共享嵌入空间中学习共享特征表示,其中欧氏距离可直接衡量相似性。
  • 使用弱监督进行端到端训练,推理过程中无需配对的草图-视角标注。
  • 采用极简主义方法以降低计算成本,并避免对任意视角选择的过拟合。

实验结果

研究问题

  • RQ1通过消除主观且模糊的‘最佳视角’选择步骤,能否提升基于草图的3D形状检索性能?
  • RQ2使用孪生CNN进行深度特征学习,能否在草图与3D模型投影匹配中超越手工设计特征?
  • RQ3仅使用每个3D模型的两个固定视角,是否仍能实现有效的检索,尤其在结合学习特征时?
  • RQ4能否通过联合损失函数对齐域内与域间相似性,实现更好的泛化能力与检索性能?
  • RQ5所提方法在多个基准数据集上的性能与最先进方法相比如何?

主要发现

  • 在SHREC’13基准上,所提方法实现了0.469的平均平均精度(mAP),显著优于第二名方法(0.434)及表3中列出的所有其他方法。
  • 在SHREC’13上,该方法在低召回率下性能提升10%,且随着召回率增加,精确率下降更缓慢,表明其具有更优的稳定性。
  • 在SHREC’14上,该方法实现了0.228的mAP,优于次佳方法(0.131)达75%,表明在多个数据集上均保持一致的优越性。
  • 域内草图检索的mAP为0.373,表明草图不一致性仍是主要挑战,但模型仍能学习到有意义的表征。
  • 域内视角检索的mAP为0.909,表明所学习的特征在基于视角的检索中极为有效,证实了模型的鲁棒性。
  • 消融研究显示,若对两个域均使用相同的孪生网络结构,性能将低于所提出的领域特定架构,验证了为各领域分别学习特征的必要性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。