Skip to main content
QUICK REVIEW

[論文レビュー] Positive-First Most Ambiguous: A Simple Active Learning Criterion for Interactive Retrieval of Rare Categories

Kawtar Zaher, Olivier Buisson|arXiv (Cornell University)|Mar 25, 2026
Domain Adaptation and Few-Shot Learning被引用数 0
ひとこと要約

PF-MA は、極端なクラス不均衡と低アノテーション予算下で珍しく細粒度な概念を対話的に検索するためのアクティブ学習基準と、検索多様性を測るクラスカバレッジ指標を提案する。

ABSTRACT

Real-world fine-grained visual retrieval often requires discovering a rare concept from large unlabeled collections with minimal supervision. This is especially critical in biodiversity monitoring, ecological studies, and long-tailed visual domains, where the target may represent only a tiny fraction of the data, creating highly imbalanced binary problems. Interactive retrieval with relevance feedback offers a practical solution: starting from a small query, the system selects candidates for binary user annotation and iteratively refines a lightweight classifier. While Active Learning (AL) is commonly used to guide selection, conventional AL assumes symmetric class priors and large annotation budgets, limiting effectiveness in imbalanced, low-budget, low-latency settings. We introduce Positive-First Most Ambiguous (PF-MA), a simple yet effective AL criterion that explicitly addresses the class imbalance asymmetry: it prioritizes near-boundary samples while favoring likely positives, enabling rapid discovery of subtle visual categories while maintaining informativeness. Unlike standard methods that oversample negatives, PF-MA consistently returns small batches with a high proportion of relevant samples, improving early retrieval and user satisfaction. To capture retrieval diversity, we also propose a class coverage metric that measures how well selected positives span the visual variability of the target class. Experiments on long-tailed datasets, including fine-grained botanical data, demonstrate that PF-MA consistently outperforms strong baselines in both coverage and classifier performance, across varying class sizes and descriptors. Our results highlight that aligning AL with the asymmetric and user-centric objectives of interactive fine-grained retrieval enables simple yet powerful solutions for retrieving rare and visually subtle categories in realistic human-in-the-loop settings.

研究の動機と目的

  • 高度に不均衡なデータにおいて、ユーザー定義の視覚的に微妙な概念の対話的検索を動機づける。
  • 低待機時間のヒューマン・イン・ザ・ループ注釈のために、軽量で高速な分類器ワークフローを開発する。
  • PF-MA を提案し、情報量と即時のユーザー有用性のバランスを取りつつ、境界近傍のポジティブ候補を優先する。
  • ターゲットクラスの視覚モード全体にわたる検索多様性を定量化するクラスカバレッジ指標を導入する。

提案手法

  • ユーザーが小さな初期クエリでクラスを定義し、反復的な二値関連性フィードバックを用いて軽量分類器を訓練する対話的検索を定式化する。
  • PF-MA を、近接境界のポジティブサンプルを優先しつつ有益なネガティブをサンプリングするスコアリングルールとして定義する:PF-MA(x) = (1 - |5 - f(x)|) * 1_{f(x) >= 0.5} + f(x) * 1_{f(x) < 0.5}。
  • 長尾データセットに対して、少数の各反復予算 b = 10 のもとで、不確実性ベースの MA、信頼度ベースの MP、他のベースライン(DAL、CoreSet、ALAMP)と PF-MA を比較する。
  • 小さなラベル付き集合 D_l 上で訓練される軽量な線形 SVM 分類器を、各反復で注釈付き選択 S_t によって更新する。
  • 視覚モード全体にわたる検索多様性を、正例を K 個の視覚モードにクラスタリングして得られる、 retrieved positive によって表現されるクラスカバレッジ cov_t^C で評価する。
  • 複数データセット(Cifar100-LT、ImageNet-LT、PlantNet300K)と2つの特徴記述子(CLIP と DINOv2)で頑健性を評価する。
  • カバレグラリティ(K の変化)への感度を調べ、PF-MA が粒度やクラスサイズに対しても優位性を維持することを示す。
Figure 1 : Comparison of selected samples. MA (left): near-boundary negatives are oversampled. MP (middle): only positives far from the boundary are selected. PF-MA (right): balance between relevant positives and negatives around the boundary.
Figure 1 : Comparison of selected samples. MA (left): near-boundary negatives are oversampled. MP (middle): only positives far from the boundary are selected. PF-MA (right): balance between relevant positives and negatives around the boundary.

実験結果

リサーチクエスチョン

  • RQ1PF-MA は、非常に不均衡で低予算な対話的検索設定において、ユーザー定義の希少な視覚概念の発見を加速できるか。
  • RQ2境界近傍のポジティブを優先しつつ曖昧さを保つことで、標準的不確実性戦略や純粋なポジティブ戦略よりも多様で有益な検索を生み出せるか。
  • RQ3PF-MA は異なる長尾データセットと特徴記述子でどう機能し、視覚的粒度(K)の選択に対して堅牢か。
  • RQ4PF-MA は初期段階の検索品質と全体的な分類性能にどのような影響を与えるか。厳しいアノテーション予算の下での効果は。

主な発見

  • PF-MA は、3つの長尾データセットと2つの記述子で、特に初期反復において強力なベースラインよりも高いクラスカバレッジを一貫して達成した。
  • PF-MA は、境界を refining するのに有益なネガティブを提供しつつ、選択バッチのポジティブ選択率を高く保つ(多くの場合選択バッチの >80%)。
  • データセットと記述モデルを横断して、PF-MA は cov_25(反復 25)で MA、MP、他のベースラインを上回り、頑健な検索多様性と迅速な概念発見を示した。
  • PF-MA の利点は特に初期反復で顕著であり、最小限の supervision で迅速なユーザー満足を実現する。
  • 提案されたクラスカバレッジ指標は、視覚モード全体にわたる検索多様性を効果的に捉え、PF-MA が単一の視覚モードに焦点を合わせるのではなくクラス多様性を跨いで広がる能力を示している。
Figure 2 : Interactive retrieval process.
Figure 2 : Interactive retrieval process.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。