QUICK REVIEW

[論文レビュー] Feature Recalibration Based Olfactory-Visual Multimodal Model for Enhanced Rice Deterioration Detection

Rongqiang Zhao, Hengrui Hu|arXiv (Cornell University)|Feb 16, 2026

Smart Agriculture and AI被引用数 0

ひとこと要約

RGB画像とe-nose信号を用いた高精度な米の劣化検出のための特徴再調整型嗅覚–視覚マルチモーダルフレームワーク（FDEC + FDRA-Net）を提案し、オフライン精度はほぼ完璧、実地性能も高い。

ABSTRACT

Multimodal methods are widely used in rice deterioration detection, but they exhibit limited capability in representing and extracting fine-grained abnormal features. Moreover, these methods rely on devices such as hyperspectral cameras and mass spectrometers, which increase detection costs and prolong data acquisition time. To address these issues, we propose a feature recalibration based olfactory-visual multimodal model for enhanced rice deterioration detection. A fine-grained deterioration embedding constructor (FDEC) is proposed to reconstruct the labeled multimodal embedded feature dataset, thereby enhancing sample representation. A fine-grained deterioration recalibration attention network (FDRA-Net) is proposed to emphasize signal variations and improve sensitivity to fine-grained deterioration on the rice surface. Compared with SS-Net, the proposed method improves classification accuracy by 8.67%, with an average improvement of 11.51% over other traditional baseline models, while simultaneously simplifying the detection procedure. Furthermore, field detection results demonstrate advantages in both accuracy and operational simplicity. The proposed method can also be extended to other agrifood applications in agriculture and the food industry.

研究の動機と目的

視覚的および嗅覚的のマルモーダルデータを活用して、微細な米の劣化の手掛かり表現を向上させる。
高価な分光イメージング機器への依存を減らしつつ検出精度を維持する。
マルモーダル埋め込みを再構築・強化して下流の検出のサンプル表現を改善する。
識別領域と嗅覚チャネルを強調するモダリティ認識型注意機構を開発する。
オフラインおよび現場での米の品質評価シナリオでの実用性を示す。

提案手法

嗅覚データと視覚データを独立に処理して統一埋め込み集合へ整理する構造化マルチモーダル埋め込みを生み出すFDECを導入する。
嗅覚信号を強化するPLRを適用し、視覚データをパッチレベルの畳み込み埋め込み器で処理されるローカルパッチへ分割する。
嗅覚特徴のSEベースのチャネル再調整と、視覚注意を強化するCBAMを組み合わせたFDRA-Netを開発する。 sparseで微細なカビパターンに焦点を当てる。
複数のFDRA層を積み重ねてモダリティを段階的に再調整・統合し、その後線形投影と3クラス出力（Expired、Moldy、Normal）の分類器へ接続する。
訓練と評価はオフラインデータセットを用い、訓練/検証用に8日分、テスト用に1日分のデータを使用する。オンラインの現場テストは実際の穀倉サンプルで実施する。

実験結果

リサーチクエスチョン

RQ1特徴再調整主導の嗅覚–視覚フレームワークは、単一モダリティや既存のマルチモーダル手法より微細な米の劣化検出で優れているか？
RQ2FDEC埋め込み構築はサンプル表現と下流検出の堅牢性を改善するか？
RQ3SEとCBAMサブモジュールは嗅覚と視覚のモダリティに対して共同検出タスクで補完的な利点を提供するか？
RQ4RGBカメラと安価なe-noseで現実の保管環境に実用的に展開できるか？
RQ5オンラインの現場条件での性能は、オフライン評価と比べてどうか？

主な発見

FDRA-Netはオフラインのテストセットで99.89%の精度を達成し、Moldyは100.00%、Expiredは100.00%の精度/再現率を報告値で示す。
FDRA-NetはCNN、NAM、ResNet、SENet、SKNet、SS-Netなどのベースラインを上回り、全体精度と再現率で優れた性能を示し、モデルサイズは約48.7 MB、待機時間は約9.48 ms程度と許容的。
アブレーションによりFDECが重要であり、それを除くと精度が99.89%から85.44%へ低下することを示す。SEとCBAMは嗅覚特徴と視覚特徴に対して補完的な利得を提供する。
Grad-CAM解析はFDRA-Netが局所的なカビ関連領域に注意を集めることを示し、FDRAなしのモデルとは異なる。
オンラインの現場テストは93.33%の精度を示し、実世界条件下ではExpired検出で一部低下があるものの、依然としてベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。