QUICK REVIEW

[論文レビュー] Text2Shape: Generating Shapes from Natural Language by Learning Joint Embeddings

Kai Chen, Christopher Choy|arXiv (Cornell University)|Mar 22, 2018

3D Shape Modeling and Analysis参考文献 40被引用数 37

ひとこと要約

Text2Shapeは、関連付け学習とメトリック学習を組み合わせることで、自然言語記述と3D形状を結びつける共同埋め込みモデルを提案する。これにより、エンドツーエンドのテキストから形状への検索と生成が可能になる。本手法は、両タスクにおいてベースラインを上回り、特に、多様で現実的で色の正確な3D形状をテキストから生成する、新しい条件付きワサーラインGANを用いることで、カテゴリレベルのアノテーションなしに、豊富に詳細な色付き3Dオブジェクトを生成する最初のシステムである。

ABSTRACT

We present a method for generating colored 3D shapes from natural language. To this end, we first learn joint embeddings of freeform text descriptions and colored 3D shapes. Our model combines and extends learning by association and metric learning approaches to learn implicit cross-modal connections, and produces a joint representation that captures the many-to-many relations between language and physical properties of 3D shapes such as color and shape. To evaluate our approach, we collect a large dataset of natural language descriptions for physical 3D objects in the ShapeNet dataset. With this learned joint embedding we demonstrate text-to-shape retrieval that outperforms baseline approaches. Using our embeddings with a novel conditional Wasserstein GAN framework, we generate colored 3D shapes from text. Our method is the first to connect natural language text with realistic 3D objects exhibiting rich variations in color, texture, and shape detail. See video at https://youtu.be/zraPvRdl13Q

研究の動機と目的

高価なカテゴリーや属性のアノテーションに依存せずに、自然言語と3D形状のモダリティを橋渡しすること。
テキスト記述と3D形状の性質（色、形状、質感など）の間の多対多関係を捉える共同埋め込み空間を学習すること。
テキストから形状への検索を可能にするとともに、現実的で色付きの3Dオブジェクトのテキストから形状への生成を、初めて実現すること。
共同埋め込みが、ベクトル演算による属性操作と条件付き生成をサポートできることを示すこと。

提案手法

インスタンスレベルのテキスト-形状ペアを活用し、関連付け学習とメトリック学習を組み合わせたエンドツーエンド学習により、共同埋め込み空間を学習する。
テキストと3D形状を同じ空間に埋め込むために、シアン型ネットワークアーキテクチャを用いる。類似した意味のペアは空間内で近接するように保証される。
メトリック学習を適用し、モード内類似性（テキスト同士、形状同士）とモード間整合性（テキスト-形状）を強制する。
共同埋め込みを条件として用いた条件付きワサーラインGAN（CWGAN）を訓練し、標準GANに比べてモードの多様性と生成品質を向上させる。
学習済み埋め込み上でベクトル演算を用い、属性（例：色、形状）の転送と、新しい形状の生成を実現する。
ShapeNetに収録された15,000体のチェアとテーブルの自然言語記述75,000件を含む大規模データセットを収集し、制御された評価のためのプリミティブとキャプションを含む合成データセットも作成した。

実験結果

リサーチクエスチョン

RQ1カテゴリレベルのアノテーションなしに、自然言語記述と3D形状から直接共同埋め込み空間を学習できるか？
RQ2このような共同埋め込みは、ベースライン手法と比較して、ゼロショットのテキストから形状への検索においてどの程度の性能を示すか？
RQ3学習済み埋め込みは、色付きの3Dオブジェクトの高品質で多様なテキストから形状への生成を可能にするか？
RQ4共同埋め込み上で行うベクトル演算は、属性の転送や新しい形状の生成にどの程度有効か？
RQ5共同埋め込みを条件として用いた条件付きワサーラインGANは、標準GANと比較して、現実的で属性が正確な3D形状の生成においてどの程度優れているか？

主な発見

提案された共同埋め込みモデルは、ベースライン手法に比べてテキストから形状への検索で顕著に優れており、テキストと3D形状の間の強い意味的整合性を示している。
共同埋め込みを条件とする条件付きワサーラインGAN（CWGAN）は、標準GANやCGANベースラインと比較して、より現実的で多様で色の正確な3D形状を生成している。
CWGANモデルは入力テキストを正しく条件として扱っており、たとえば「白いテーブル」という指示に対して白いテーブルを生成するが、ベースラインは色やカテゴリで失敗するのと対照的である。
学習済み埋め込み上で行うベクトル演算により、色や形状の属性転送が可能となり、妥当な新しい形状の生成が実現している。
強力な性能を示しているが、細部（例：脚の数、正確な形状）の処理にはまだ課題が残っており、明確な記述的属性を捉える能力に改善の余地がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。