[論文レビュー] Locally Aware Piecewise Transformation Fields for 3D Human Mesh Registration
本論文では、局所的特徴に整合した変換フィールドを用いて正確なポーズ初期化を推定することで、3次元人体メッシュ登録を向上させる学習ベースの手法、ローカルに注意を払ったピecewise変換フィールド(PTF)を提案する。局所的特徴から点対応を予測し、最小二乗法によるフィッティングを用いて関節回転を回復することで、従来手法に比べてより正確でパラメータ効率の良い衣装を着た人体ポイントクラウドの再構築と登録を実現する。
Registering point clouds of dressed humans to parametric human models is a challenging task in computer vision. Traditional approaches often rely on heavily engineered pipelines that require accurate manual initialization of human poses and tedious post-processing. More recently, learning-based methods are proposed in hope to automate this process. We observe that pose initialization is key to accurate registration but existing methods often fail to provide accurate pose initialization. One major obstacle is that, regressing joint rotations from point clouds or images of humans is still very challenging. To this end, we propose novel piecewise transformation fields (PTF), a set of functions that learn 3D translation vectors to map any query point in posed space to its correspond position in rest-pose space. We combine PTF with multi-class occupancy networks, obtaining a novel learning-based framework that learns to simultaneously predict shape and per-point correspondences between the posed space and the canonical space for clothed human. Our key insight is that the translation vector for each query point can be effectively estimated using the point-aligned local features; consequently, rigid per bone transformations and joint rotations can be obtained efficiently via a least-square fitting given the estimated point correspondences, circumventing the challenging task of directly regressing joint rotations from neural networks. Furthermore, the proposed PTF facilitate canonicalized occupancy estimation, which greatly improves generalization capability and results in more accurate surface reconstruction with only half of the parameters compared with the state-of-the-art. Both qualitative and quantitative studies show that fitting parametric models with poses initialized by our network results in much better registration quality, especially for extreme poses.
研究の動機と目的
- 衣装を着た人体の深層学習ベースの3次元人体メッシュ登録における不正確なポーズ初期化の課題に対処すること。
- ニューラルネットワークを用いてポイントクラウドから直接関節回転を回帰することの難しさを克服すること。
- パrametric人体モデルにおける暗黙的表面学習における一般化性と再構築品質の向上。
- 最先端の手法と比較して登録精度を維持または向上させながらモデルパラメータを削減すること。
- 正準化された体積占有推定を活用して極端なポーズに対しても頑健な登録を可能にすること。
提案手法
- 局所的ポイントクラウド特徴を用いて、ポーズ空間のクエリポイントをレストポーズ空間内の対応位置にマッピングする関数の集合であるピースワイズ変換フィールド(PTF)を提案する。
- マルチクラス体積占有ネットワークを用いて同時に予測:(1) 雙層体積占有(体内、衣装間、外側)、(2) 人体部品ラベル、(3) 各ポイントのレストポーズ対応位置。
- 予測された点対応に基づいて最小二乗法によるフィッティングを実行し、剛体ボーン変換と関節回転を効率的に回復する。回転パラメータの直接回帰を避ける。
- クエリポイントを体積占有推定の前にレストポーズ空間に変換する正準化ステップを導入することで、学習タスクを単純化し、一般化性を向上させる。
- メモリ集約的なボクセルベースのIFNetに代わり、効率的かつ正確な特徴抽出を実現する3平面畳み込み特徴エンコーダー(ConvONet)を採用する。
- トレーニング中にランダム回転のデータオーグメンテーションを適用し、多様な入力方向に対する頑健性と一般化性を向上させる。
実験結果
リサーチクエスチョン
- RQ1局所的ポイントクラウド特徴を効果的に活用することで、人体メッシュ登録におけるポーズ空間とレストポーズ空間間の正確な点対応を推定できるか?
- RQ26次元回転行列の直接回帰を避けることで、エンドツーエンド回帰ベースラインと比較してポーズ推定精度が向上するか?
- RQ3ピースワイズ変換フィールドは、再構築および登録品質を維持または向上させながらモデルパラメータを削減できるか?
- RQ4PTFによる正準化された体積占有推定は、一般化性と表面再構築忠実度にどのように影響を与えるか?
- RQ5提案手法は、ベースライン手法が失敗するような生の、前処理の施されていないスキャンおよび極端なポーズに対しても一般化可能か?
主な発見
- 本手法は、ポーズ推定における1点あたりの誤差をベースラインの74.4 mmから34.1 mmに削減し、ポーズ精度の顕著な向上を示した。
- PTF-PiecewiseはmIoU 89.4%、外側カマーフ距離0.0148を達成し、IPNet(mIoU 88.6%、CD 0.0151)を上回り、パラメータを46%も削減した。
- PTF-FCはIPNetの64%のパラメータで、mIoUは2.6%向上、外側CDは2.6%低減した。
- 本手法はBUFFデータセットの生スキャンに対しても良好に一般化され、微調整なしに高品質な登録済みSMPLメッシュを生成した。
- アブレーションでは、PTFを4層のMLP(TF-FC)に置き換えると性能が低下し、PTFモジュールの必要性が確認された。
- ランダム入力回転によるデータオーグメンテーションが性能を向上させたことから、頑健性と一般化性の向上に寄与することが実証された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。