QUICK REVIEW

[論文レビュー] Fast Threshold Optimization For Multi-Label Audio Tagging Using Surrogate Gradient Learning

Thomas Pellegrini, Timothée Masquelier|arXiv (Cornell University)|Mar 1, 2021

Music and Audio Processing参考文献 11被引用数 1

ひとこと要約

本稿では、F1スコアを最大化するために、多ラベル音声タギングにおける意思決定しきい値を最適化する高速でスケーラブルな手法SGL-Threshを提案する。非微分可能なしきい値処理をシグモイド勾配による近似することで、従来手法を上回り、AudioSet評価で54.9%のマイクロ-F1を達成した。

ABSTRACT

Multi-label audio tagging consists of assigning sets of tags to audio recordings. At inference time, thresholds are applied on the confidence scores outputted by a probabilistic classifier, in order to decide which classes are detected active. In this work, we consider having at disposal a trained classifier and we seek to automatically optimize the decision thresholds according to a performance metric of interest, in our case F-measure (micro-F1). We propose a new method, called SGL-Thresh for Surrogate Gradient Learning of Thresholds, that makes use of gradient descent. Since F1 is not differentiable, we propose to approximate the thresholding operation gradients with the gradients of a sigmoid function. We report experiments on three datasets, using state-of-the-art pre-trained deep neural networks. In all cases, SGL-Thresh outperformed three other approaches: a default threshold value (defThresh), an heuristic search algorithm and a method estimating F1 gradients numerically. It reached 54.9\% F1 on AudioSet eval, compared to 50.7% with defThresh. SGL-Thresh is very fast and scalable to a large number of tags. To facilitate reproducibility, data and source code in Pytorch are available online: https://github.com/topel/SGL-Thresh

研究の動機と目的

多ラベル音声タギングにおける意思決定しきい値の自動最適化により、F1スコアの向上を図ること。
しきい値最適化の過程でF1指標の非微分可能性に起因する課題を解決すること。
多数のタグを含む大規模音声タギングに適したスケーラブルで効率的な手法を開発すること。
ヒューリスティック法や数値勾配推定法を含む、既存のしきい値最適化手法を上回ること。
公開されたPyTorchコードとデータセットを通じて再現可能性を確保すること。

提案手法

非微分可能なしきい値処理の勾配を推定するために、微分可能なシグモイド近似を用いる。
シグモイド近似されたしきい値処理関数を逆伝播することで、勾配降下法を用いてしきい値を最適化する。
微分可能な推論パイプライン内での学習可能なパラメータ更新として、しきい値最適化を扱う。
F1スコアに基づく補間損失を採用し、しきい値処理ステップのシグモイド近似を通じて勾配を計算する。
事前学習済みの深層ニューラルネットワークとシームレスに統合し、エンドツーエンドの微調整が可能になる。
微分可能で勾配ベースの最適化アプローチであるため、タグ数が多数に及んでも効率的にスケーリング可能である。

実験結果

リサーチクエスチョン

RQ1F1指標の非微分性を考慮しても、補間勾配学習が多ラベル音声タギングにおける意思決定しきい値の最適化に効果的に機能するか？
RQ2SGL-Threshは、デフォルトしきい値、ヒューリスティックサーチ、数値勾配推定法と比較して、F1スコアでどのように優れているか？
RQ3本手法は、多数のタグを含む音声タギングに適用した場合、どの程度スケーラブルで効率的か？
RQ4シグモイドベースの勾配近似は、標準的なしきい値戦略と比較して一貫性があり、測定可能なF1スコアの向上をもたらすか？
RQ5本手法は、最先端の事前学習モデルを用いた実世界のデータセット（例：AudioSet）に対しても効果的に適用可能か？

主な発見

SGL-Threshは、AudioSet評価セットで54.9%のマイクロ-F1を達成し、デフォルトしきい値法（50.7%）を顕著に上回った。
本手法は、評価された3つのデータセットすべてにおいて、ヒューリスティックサーチおよび数値勾配推定法を一貫して上回った。
SGL-Threshは高速な収束性と高いスケーラビリティを示し、多数のラベルを含む大規模音声タギングに適している。
シグモイドベースの補間勾配により、しきい値処理の逆伝播が効果的に可能となり、F1の非微分性を克服できた。
本手法は頑健で汎用性が高く、多様な音声タギングベンチマークで一貫した改善を示した。
公開されたPyTorch実装により、完全な再現性が確保され、既存の音声タギングパイプラインへの統合が容易になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。