QUICK REVIEW

[論文レビュー] Evaluating Voice Conversion-based Privacy Protection against Informed Attackers

Brij Mohan Lal Srivastava, Nathalie Vauquier|arXiv (Cornell University)|Nov 10, 2019

Speech Recognition and Synthesis参考文献 25被引用数 76

ひとこと要約

本論文は、声変換ベースの匿名化が、さまざまな知識レベルを持つ攻撃者にどれだけ耐性があるかを評価し、完全な知識を持つ（情報付きの攻撃者）場合にはプライバシ保護がほぼ破られる一方、部分的な知識を持つ攻撃者（半情報攻撃者）は特定のターゲット選択戦略で緩和できることを示す。一方、無知な攻撃者は強いリンク不可性を示す。

ABSTRACT

Speech data conveys sensitive speaker attributes like identity or accent. With a small amount of found data, such attributes can be inferred and exploited for malicious purposes: voice cloning, spoofing, etc. Anonymization aims to make the data unlinkable, i.e., ensure that no utterance can be linked to its original speaker. In this paper, we investigate anonymization methods based on voice conversion. In contrast to prior work, we argue that various linkage attacks can be designed depending on the attackers' knowledge about the anonymization scheme. We compare two frequency warping-based conversion methods and a deep learning based method in three attack scenarios. The utility of converted speech is measured via the word error rate achieved by automatic speech recognition, while privacy protection is assessed by the increase in equal error rate achieved by state-of-the-art i-vector or x-vector based speaker verification. Our results show that voice conversion schemes are unable to effectively protect against an attacker that has extensive knowledge of the type of conversion and how it has been applied, but may provide some protection against less knowledgeable attackers.

研究の動機と目的

異なる攻撃者知識レベル下での声変換（VC）匿名化のリンク不可性を評価する。
異なるターゲット選択戦略の下で、3 つの VC 手法（VoiceMask、VTLN ベースの VC、分離表現 VC）を比較する。
変換された音声に対して話者検証の EER と ASR の WER を測定して、プライバシーとユーティリティのトレードオフを定量化する。
脅威モデルを形式化し、プライバシー保護された音声処理設計のための指針を提供する。

提案手法

非並行・多対多・ソース互換性・言語非依存の3つのVC手法を評価する：VoiceMask、VTLNベースのVC、分離表現VC。
3つのターゲット選択戦略を定義する：const（固定ターゲット）、perm（ユーザーごとにランダムターゲット）、random（発話ごとにランダムターゲット）。
攻撃者の知識レベルを定義する：Ignorant、Semi-Informed、Informed、VC手法とパラメータについて。
変換データに対するi-vector/x-vectorベースの話者検証でのEERと、変換データに対するASRのWERを用いてリンク不可性を評価する。
LibriSpeechでx-vectorおよびi-vectorシステムを訓練し、変換データで訓練されたハイブリッドCTC/AttentionモデルでASRを評価する。

実験結果

リサーチクエスチョン

RQ1攻撃者の知識（Ignorant、Semi-Informed、Informed）とVC手法・ターゲット選択戦略の組み合わせによってリンク不可性はどう変化するか？
RQ2現実的な攻撃者知識レベルの下で、どのターゲット選択戦略が最もプライバシーを保護するか？
RQ3各手法におけるVCが下流のASR性能（WER）および話者検証指標（EER）に与える影響は何か？

主な発見

情報付き攻撃者は、いくつかのVC手法でベースラインと同等またはそれ以下のEERを達成し、攻撃者がVCスキームとターゲットを完全に知っている場合にはプライバシ保護が限られていることを示す。
半情報攻撃者は substantial privacy protectionを得て、置換戦略（perm）が戦略の中で最も強いリンク不可性を提供することが多い。
無知な攻撃者は強いリンク不可性を示し、VCが適用されていることを知らないため保護は大幅に高い。
適切なターゲット選択戦略を用いたVTLNベースのVCは、部分的な知識を持つリンク攻撃に対して妥当なプライバシ保護を提供する一方、VoiceMaskは情報付き知識の下でより脆弱である。
分離表現VCは大幅なWERの増加をもたらし、評価設定下でのユーティリティが低いことを示すが、プライバシーの特性は攻撃者の知識とターゲット戦略により異なる。
変換前データのベースラインEER: i-vector 4.61%、x-vector 4.31%；ASR WERのベースライン9.4%。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。