QUICK REVIEW

[論文レビュー] Kaolin: A PyTorch Library for Accelerating 3D Deep Learning Research

Krishna Murthy Jatavallabhula, Edward J. Smith|arXiv (Cornell University)|Nov 12, 2019

Image Processing and 3D Reconstruction参考文献 41被引用数 69

ひとこと要約

KaolinはPyTorchベースのライブラリで、微分可能な3Dモジュール、データセットツール、微分可能レンダラー、事前学習済みアーキテクチャを備えたモデル zoo、および可視化ユーティリティを提供することで、3D深層学習研究を加速します。

ABSTRACT

We present Kaolin, a PyTorch library aiming to accelerate 3D deep learning research. Kaolin provides efficient implementations of differentiable 3D modules for use in deep learning systems. With functionality to load and preprocess several popular 3D datasets, and native functions to manipulate meshes, pointclouds, signed distance functions, and voxel grids, Kaolin mitigates the need to write wasteful boilerplate code. Kaolin packages together several differentiable graphics modules including rendering, lighting, shading, and view warping. Kaolin also supports an array of loss functions and evaluation metrics for seamless evaluation and provides visualization functionality to render the 3D results. Importantly, we curate a comprehensive model zoo comprising many state-of-the-art 3D deep learning architectures, to serve as a starting point for future research endeavours. Kaolin is available as open-source software at https://github.com/NVIDIAGameWorks/kaolin/.

研究の動機と目的

PyTorchでエンドツーエンドのツールキットを提供することで、3D深層学習への参入障壁を低減する。
複数の3D表現（メッシュ、点群、ボクセル、SDF、深度マップ）と効率的な表現間変換をサポート。
微分可能レンダリングと事前学習済みのベースラインを備えた包括的な model zoo を提供し、迅速な実験を支援。
3Dタスクに合わせた損失関数、指標、可視化ツールを提供。
3D DL研究ツールを拡張するオープンソースコミュニティとロードマップを育成。

提案手法

PyTorchテンソルベースのクラスとして包括的な3D表現を提供し、微分可能な表現間変換をサポート。
抽象的なDifferentiableRendererベースクラスとCUDA加速コンポーネントを備えたモジュラーな微分可能レンダラを実装。
PyTorchのDataset/DataLoaderを拡張したデータセットローダーフレームワークを含み、USDのエクスポート/インポートとShapeNet、ModelNet、ScanNet等の人気3Dデータセットのサポートを提供。
3D損失関数と指標のライブラリを提供（例：ボクセルのIoU、Chamfer距離、Earth Mover’s distance、point-to-surface loss）。
Pixel2Mesh、MeshCNN、PointNet/PointNet++、Occupancy Networks、DeepSDF などの事前学習済みアーキテクチャを備えたモデル zoo を提供し、手法のベンチマークと開発を加速。
軽量ツールとUSDベースのエクスポートを通じてすべての表現での可視化を促進し、ハイファイデリティなレンダリングを実現。

実験結果

リサーチクエスチョン

RQ1統一されたPyTorchベースのツールキットは、さまざまな3D表現の読み込み、変換、訓練をどのように効率化できるか？
RQ2微分可能レンダリングをモジュラーかつ拡張可能に統合して、2Dの監督付き学習と3D学習を可能にできるか？
RQ3評価を標準化し3D DLの研究を加速するために、どのベースラインと事前学習モデルを提供すべきか？
RQ4迅速な開発と公正な比較をサポートする指標と可視化ツールは何か？

主な発見

機能/操作	参照アプローチ	高速化
Mesh adjacency information	MeshCNN [ 17 ]	110 X
DIB-Renderer DIB-R	[ 7 ]	~ 10 X
Sign testing points with meshes	Occupancy Networks [ 27 ]	>10 X
Soft rasterizer	SoftRasterizer [ 25 ]	>2 X

Kaolinはメッシュ、点群、ボクセルグリッド、符号付き距離関数、深度画像に対して微分可能な変換を含む広範なサポートを提供します。
モジュラーなDifferentiableRendererによりレンダリングコンポーネント（ジオメトリ、ライティング、シェーディング、投影、ラスタ化）を入れ替えることができ、パフォーマンスのためのCUDA実装を含みます。
モデル zooには、分類、セグメンテーション、再構成、微分可能レンダリングなどのタスクで迅速なベンチマークを可能にする事前学習済みモデルを含む最先端の3Dアーキテクチャが含まれます。
KaolinはShapeNet、PartNet、SHREC、ModelNet、ScanNet、HumanSegなどのデータセットをUSDエクスポート/インポートと統合し、データ処理を簡素化します。
本論文は例と詳細なエコシステムを通じて顕著な高速化と実用性を示し、3D DLワークフローにおけるボイラープレートコードを削減します。
可視化とデータエクスポート機能は、エンドツーエンドの実験と必要に応じた高忠実度レンダリングをサポートします。）
table_headers_translateable:

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。