Skip to main content
QUICK REVIEW

[論文レビュー] Deep AutoEncoder-based Lossy Geometry Compression for Point Clouds

Wei Yan, Yiting Shao|arXiv (Cornell University)|Apr 18, 2019
3D Shape Modeling and Analysis参考文献 29被引用数 59
ひとこと要約

点群を直接入力として受け取り、点群の不可逆ジオメトリ圧縮のための深層オートエンコーダアーキテクチャを提案し、MPEG TMC13に対して優れたレート–歪み性能を達成する(平均73.15%のBDレート改善)。

ABSTRACT

Point cloud is a fundamental 3D representation which is widely used in real world applications such as autonomous driving. As a newly-developed media format which is characterized by complexity and irregularity, point cloud creates a need for compression algorithms which are more flexible than existing codecs. Recently, autoencoders(AEs) have shown their effectiveness in many visual analysis tasks as well as image compression, which inspires us to employ it in point cloud compression. In this paper, we propose a general autoencoder-based architecture for lossy geometry point cloud compression. To the best of our knowledge, it is the first autoencoder-based geometry compression codec that directly takes point clouds as input rather than voxel grids or collections of images. Compared with handcrafted codecs, this approach adapts much more quickly to previously unseen media contents and media formats, meanwhile achieving competitive performance. Our architecture consists of a pointnet-based encoder, a uniform quantizer, an entropy estimation block and a nonlinear synthesis transformation module. In lossy geometry compression of point cloud, results show that the proposed method outperforms the test model for categories 1 and 3 (TMC13) published by MPEG-3DG group on the 125th meeting, and on average a 73.15\% BD-rate gain is achieved.

研究の動機と目的

  • 不規則な3D点群に対する柔軟でデータ駆動型のジオメトリ圧縮を動機づけ、実現する。
  • ボクセル化や画像のような表現を用いず、原始的な点群を直接処理するエンドツーエンドのオートエンコーダフレームワークを開発する。
  • 学習可能なエントロピーモデルと微分可能な量子化スキームを組み込んで、レート–歪みを最適化する。
  • 一般的なオブジェクトカテゴリにおいて、MPEG PCCベースラインと競合する圧縮性能を示す。

提案手法

  • PointNetベースのエンコーダを用いて、順列不変な潜在表現を取得する。
  • 訓練時にはストレートスルー近似または一様ノイズ近似を用いた一様量子化器を適用して、離散的な潜在コードを生成する。
  • レート推定のために潜在コードの事前分布をモデル化するエントロピー推定(エントロピーボトルネック)モジュールを組み込む。
  • Chamfer距離の歪みと推定ビットレートを組み合わせたレート–歪み目的関数を最適化する。
  • 潜在コードから3D点群を再構成する全結合デコーダを使用する。
  • ShapeNetで訓練・評価し、複数のオブジェクトカテゴリに渡ってMPEG TMC13と比較する。

実験結果

リサーチクエスチョン

  • RQ1エンドツーエンドのオートエンコーダは、ボクセル化なしで点群から直接、効率的な不可逆ジオメトリ表現を学習できるか?
  • RQ2学習可能なエントロピーモデルと微分可能な量子化を用いた場合、MPEG PCCのTMC13に対してレート–歪み性能でどの程度の利得が得られるか?
  • RQ3エントロピーボトルネックを組み込むことが、点群ジオメトリのビットレートと再構成品質にどう影響するか?
  • RQ4本手法は、chair、airplane、table、carなどの異なるオブジェクトカテゴリ間で、さまざまなビットレートの下で頑健か?

主な発見

  • 提案されたオートエンコーダベースのジオメトリコーデックは、chair、airplane、table、carのカテゴリすべてで、すべての評価ビットレートにおいてTMC13を上回る。
  • 平均して、本手法はTMC13より73.15%のBDレート改善を達成する。
  • アブレーション研究により、エントロピーボトルネックモジュールが、エントロピー推定なしのベースラインに対して19.3%のBDレート改善をもたらすことが示された。
  • 再構成された点群は密度が高く、PSNRが同程度のときTMC13よりビット/点が低くなる傾向がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。