QUICK REVIEW

[論文レビュー] Poisoned Acoustics

Harrison Dahme|arXiv (Cornell University)|Feb 25, 2026

Adversarial Robustness in Machine Learning被引用数 0

ひとこと要約

本論文は、サブ1%の汚蔑で音響的車両分類に対する標的データ汚染攻撃を実証し、トラックを車として誤分類させる高い誤分類率と全体的な精度低下を生じさせず、Merkleコミットメントとポスト量子署名を用いた信頼最小化防御を提案します。

ABSTRACT

Training-data poisoning attacks can induce targeted, undetectable failure in deep neural networks by corrupting a vanishingly small fraction of training labels. We demonstrate this on acoustic vehicle classification using the MELAUDIS urban intersection dataset (approx. 9,600 audio clips, 6 classes): a compact 2-D convolutional neural network (CNN) trained on log-mel spectrograms achieves 95.7% Attack Success Rate (ASR) -- the fraction of target-class test samples misclassified under the attack -- on a Truck-to-Car label-flipping attack at just p=0.5% corruption (48 records), with zero detectable change in aggregate accuracy (87.6% baseline; 95% CI: 88-100%, n=3 seeds). We prove this stealth is structural: the maximum accuracy drop from a complete targeted attack is bounded above by the minority class fraction (beta). For real-world class imbalances (Truck approx. 3%), this bound falls below training-run noise, making aggregate accuracy monitoring provably insufficient regardless of architecture or attack method. A companion backdoor trigger attack reveals a novel trigger-dominance collapse: when the target class is a dataset minority, the spectrogram patch trigger becomes functionally redundant--clean ASR equals triggered ASR, and the attack degenerates to pure label flipping. We formalize the ML training pipeline as an attack surface and propose a trust-minimized defense combining content-addressed artifact hashing, Merkle-tree dataset commitment, and post-quantum digital signatures (ML-DSA-65/CRYSTALS-Dilithium3, NIST FIPS 204) for cryptographically verifiable data provenance.

研究の動機と目的

音響車両分類器における標的誤分類を誘発するのに必要な最小汚染率を定量化する。
集計精度監視は不均衡データセットにおける標的となる少数クラス攻撃を信頼性高く検出できないことを示す。
バックドアトリガとクラス不均衡の相互作用（トリガー支配崩壊）を特徴づける。
データ汚染およびサプライチェーン攻撃に対抗する検証可能で信頼最小化のML訓練パイプラインを提案する。

提案手法

128-bin log-melスペクトログラム入力を用いたMELAUDIS都市交差点音声データを使用する。
単一車両クリップで6クラスの車両分類のためのコンパクトな2-D CNNを訓練する。
2つの攻撃バリエーションを実装する：Truck->Carラベルの標的ラベル反転と、12x12スペクトログラムパッチを用いたバックドアトリガ。
汚染率p ∈ {0.5%, 1%, 2%}の条件下で保持データのTruckサンプルに対するAttack Success Rate (ASR)を測定する。
マイノリティクラスの割合と検出可能な精度低下の関係を分析し、境界Delta Acc_max <= betaを証明する。
データ出所を検証するためのMerkleデータセットコミットメントとポスト量子署名を用いた信頼最小化パイプラインを提案する。

実験結果

リサーチクエスチョン

RQ1音響車両分類器において標的誤分類を実現するのに必要な汚染率はどれくらいか？
RQ2集計精度監視は不均衡データセットにおける標的となる少数クラス攻撃を検出できるか？
RQ3スペクトログラム空間におけるクラス不均衡はバックドアトリガの効果にどのように影響するか？
RQ4データ汚染とサプライチェーン攻撃に対してML訓練パイプラインの完全性を保証する暗号的防御は何か？

主な発見

0.5%の汚染（48件）でTruck->CarのASRが95.7%に達し、全体精度は87.6%であった。
すべての検査率において、集計テスト精度はクリーンベースラインと統計的に区別不能（87.6%–87.4%）。
Truckが訓練データの約3%を占める状況で、攻撃による完全な精度低下は少数派の割合によって上限化され、Delta Acc_max <= betaとなる。したがって不均衡により stealth性が高まる。
バックドアバリアントで0.5%汚染時、クリーンASRとトリガーASR（約94.87%）が等しく、マイノリティクラスに対してパッチが冗長になるトリガー支配崩壊が生じる。
パッチバックドアはマイノリティクラスのラベル反転へと退化し、主な脆弱性はスペクトログラムの変更ではなくラベルにあることを示唆している。
Merkleデータセットコミットメントとポスト量子ML-DSA-65署名を組み合わせた暗号的防御アーキテクチャは検証可能なデータ出所を提供し、両方の攻撃タイプを緩和することができる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。