[論文レビュー] CholecSeg8k: A Semantic Segmentation Dataset for Laparoscopic Cholecystectomy Based on Cholec80
CholecSeg8K は Cholec80 由来のオープンセマンティックセグメンテーションデータセットで、腹腔鏡下胆嚢摘出術の13クラスに対応する8,080フレームの注釈を提供し、訓練用のセグメンテーションモデルを支援するためのピクセルレベルのマスクと複数のマスク形式を提供する。
Computer-assisted surgery has been developed to enhance surgery correctness and safety. However, researchers and engineers suffer from limited annotated data to develop and train better algorithms. Consequently, the development of fundamental algorithms such as Simultaneous Localization and Mapping (SLAM) is limited. This article elaborates on the efforts of preparing the dataset for semantic segmentation, which is the foundation of many computer-assisted surgery mechanisms. Based on the Cholec80 dataset [3], we extracted 8,080 laparoscopic cholecystectomy image frames from 17 video clips in Cholec80 and annotated the images. The dataset is named CholecSeg8K and its total size is 3GB. Each of these images is annotated at pixel-level for thirteen classes, which are commonly founded in laparoscopic cholecystectomy surgery. CholecSeg8k is released under the license CC BY- NC-SA 4.0.
研究の動機と目的
- 内視鏡手術のピクセルレベルのセマンティックセグメンテーションデータセットを提供し、アルゴリズム開発(例:SLAM、セグメンテーションモデル)を支援する。
- Cholec80 を拡張し、13 の手術特有クラスでフレームに注釈を付け、腹腔鏡下胆嚢摘出術の映像の文脈理解を可能にする。
- 訓練をモデル間で容易に行えるよう、生画像、カラー マスク、注釈マスク、ウォーターシェッドマスクなどの利用可能なデータ形式を提供する。
提案手法
- Cholec80 データセットの 17 本のビデオから 8,080 フレームを抽出する。
- 胆嚢摘出術に関連する 13 の事前定義クラスでピクセルを注釈する。
- 各画像について3 種類のマスク形式を作成する(カラー マスク、注釈マスク、ウォーターシェッド マスク)。
- ビデオとフレーム番号による2段階のディレクトリ構造にデータを整理する。
- CC BY-NC-SA 4.0 ライセンスの下で PNG 形式でデータを提供する。
実験結果
リサーチクエスチョン
- RQ1既存の内視鏡ビデオデータから高品質なピクセル単位のセマンティックセグメンテーションデータセットをどのように作成できるか。
- RQ2腹腔鏡下胆嚢摘出術における組織と道具のクラス分類とその網羅性はどうか。
- RQ3セグメンテーションモデルの開発での実用性を最大化するデータ形式と組織スキームは何か。
- RQ4注釈フレーム内のクラス分布はどのようになっており、訓練に対してどんな影響を持つか。
主な発見
- データセットは 8,080 フレームから構成され、17 本の Cholec80 ビデオから抽出されている。
- 13 のピクセルレベル注釈クラスが定義されており、臓器(例:肝臓、胆嚢)と道具(例:グラスパー、L-フック電気メス)を含む。
- 画像解像度は 854 × 480 ピクセルで、データセット全体のサイズは 3 GB。
- すべてのフレームに 13 クラス全てが含まれているわけではなく、クラスの出現は不均衡で、いくつかの道具は注釈ピクセルの1%未満である。
- 各フレームには PNG 形式の3つのマスク(カラー マスク、注釈マスク、ウォーターシェッド マスク)がある。
- データセットは CC BY-NC-SA 4.0 で公開され、Kaggle で利用可能。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。