[論文レビュー] A dataset of medication images with instance segmentation masks for preventing adverse drug events
MEDISEGは32クラス、8,262枚の錠剤画像とピクセル精度のインスタンスマスクを提供し、堅牢な錠剤認識モデルの訓練を可能にします。ベースラインのYOLOv8/YOLOv9は高い性能と少数ショット転移の恩恵を示します。
Medication errors and adverse drug events (ADEs) pose significant risks to patient safety, often arising from difficulties in reliably identifying pharmaceuticals in real-world settings. AI-based pill recognition models offer a promising solution, but the lack of comprehensive datasets hinders their development. Existing pill image datasets rarely capture real-world complexities such as overlapping pills, varied lighting, and occlusions. MEDISEG addresses this gap by providing instance segmentation annotations for 32 distinct pill types across 8262 images, encompassing diverse conditions from individual pill images to cluttered dosette boxes. We trained YOLOv8 and YOLOv9 on MEDISEG to demonstrate their usability, achieving mean average precision at IoU 0.5 of 99.5 percent on the 3-Pills subset and 80.1 percent on the 32-Pills subset. We further evaluate MEDISEG under a few-shot detection protocol, demonstrating that base training on MEDISEG significantly improves recognition of unseen pill classes in occluded multi-pill scenarios compared to existing datasets. These results highlight the dataset's ability not only to support robust supervised training but also to promote transferable representations under limited supervision, making it a valuable resource for developing and benchmarking AI-driven systems for medication safety.
研究の動機と目的
- 現実世界の薬剤取り扱いシナリオを反映した現実的で多錠剤のデータセットの必要性を動機づける。
- 多様な照明、遮蔽、デソット箱環境での詳細なインスタンスセグメンテーションマスクを備えたMEDISEGを作成する。
- MEDISEGの最先端検出器(YOLOv8/YOLOv9)を評価し、ベースライン性能を確立する。
- 見えない錠剤クラスへ適用する際の少数ショット学習転移を実証する。
- AIを通じた薬剤安全性の研究を支援するデータリソースと指針を提供する。
提案手法
- iPhone 12 Pro Maxを用いた様々な照明下のデソット箱セットアップで現実世界の錠剤画像を撮影・前処理する。
- 重なりや遮蔽を正確に捉えるCOCO形式インスタンスセグメンテーションマスクで各錠剤をアノテートする。
- MEDISEG (3-Pills)とMEDISEG (32-Pills)のサブセットをそれぞれ3錠剤クラスと32錠剤クラスで作成する。
- MEDISEG上で70/20/10の訓練/検証/テスト分割を用いてYOLOv8とYOLOv9を訓練し、ベースラインを確立する。
- FsDetフレームワークを用いた少数ショット検出実験(ベース/新規クラス分割)を実施し、遮蔽・重なりの下での転移を評価する。
- 学習率・モメンタムなどの関連設定を遺伝的アルゴリズムでハイパーパラメータ調整し、局在化の改善を図る。
![Figure 1: (A) Trends in AEMT events from 1980 to 2014 and (B) the distribution of these events across age groups [ 10 ] .](https://ar5iv.labs.arxiv.org/html/2603.10825/assets/img/AEMT_subtypes.png)
実験結果
リサーチクエスチョン
- RQ1MEDISEGの現実的な多錠剤画像は錠剤認識タスクの物体検出とセグメンテーションの性能を改善できるか。
- RQ2遮蔽や重なりの下で、 MEDISEGで事前学習した検出器は、制御された単錠剤データセットで訓練したモデルより unseen錠剤クラスへ転移しやすいか。
- RQ3複雑で照明・重なりが異なる多錠剤シーンでYOLOv8とYOLOv9はどう比較されるか。
- RQ4新しい錠剤クラスへ適用する際、MEDISEGを基盤データセットとして用いた少数ショット学習の影響はどの程度か。
主な発見
- YOLOv8とYOLOv9は3-Pillsサブセットで高いmAP@50(最大99.5%)を達成し、32-PillsサブセットでのmAP@50-95は高いが相対的に低い(80.1%)。
- 少数ショットのテストでは、MEDISEGを基盤として訓練されたモデルが、より制御されたデータセットで訓練されたモデルより unseen・遮蔽錠剤の認識で有利となる。
- YOLOv9は一般に32-PillsサブセットでのmAP@50-95が高く、困難な条件下での局在化が強いことを示唆する。
- MEDISEGでの基礎訓練は、視覚的に複雑なシーンにおける検出損失を低く抑え、1-shot・5-shot・10-shot設定で局在化をより安定させる。
- 遮蔽が多いテストセットにおける新規錠剤クラスへの一般化は、特に強い遮蔽下での一般化能力をMEDISEGベースの事前学習が向上させる。
![Figure 2: Examples of images taken from (A) the dataset by Lee et al. [ 4 ] , (B) the NIH Pillbox dataset [ 15 ] , (C) the CURE dataset [ 5 ] , (D) the dataset by Wong et al. [ 14 ] , and (E) the dataset by Tan et al. [ 11 ] .](https://ar5iv.labs.arxiv.org/html/2603.10825/assets/img/datasets.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。