QUICK REVIEW

[论文解读] TOWARDS AUDITORY ATTENTION DECODING WITH NOISE-TAGGING: A PILOT STUDY

Hanneke A. Scheppink, Sara Ahmadi|arXiv (Cornell University)|Mar 22, 2024

Blind Source Separation Techniques被引用 1

一句话总结

本试点研究探讨了噪声标记——通过伪随机噪声码对语音进行幅度调制——以增强基于脑电图（EEG）的听觉注意力解码（AAD）性能。通过在语音信号中嵌入独特的噪声码，作者比较了基于语音包络（eCCA）与重新卷积噪声码（rCCA）的典型相关分析（CCA）的解码性能。结果表明，70%至100%的调制深度显著提升了未调制语音的解码准确率，尤其在短决策窗口中表现更优，证明了噪声标记在神经调控助听器中实现更快、更精确的AAD的可行性。

ABSTRACT

Auditory attention decoding (AAD) aims to extract from brain activity the attended speaker amidst candidate speakers, offering promising applications for neuro-steered hearing devices and brain-computer interfacing. This pilot study makes a first step towards AAD using the noise-tagging stimulus protocol, which evokes reliable code-modulated evoked potentials, but is minimally explored in the auditory modality. Participants were sequentially presented with two Dutch speech stimuli that were amplitude-modulated with a unique binary pseudo-random noise-code, effectively tagging these with additional decodable information. We compared the decoding of unmodulated audio against audio modulated with various modulation depths, and a conventional AAD method against a standard method to decode noise-codes. Our pilot study revealed higher performances for the conventional method with 70 to 100 percent modulation depths compared to unmodulated audio. The noise-code decoder did not further improve these results. These fundamental insights highlight the potential of integrating noise-codes in speech to enhance auditory speaker detection when multiple speakers are presented simultaneously.

研究动机与目标

评估在听觉领域使用噪声标记解码码调制听觉诱发电位（c-AEP）的可行性。
比较基于语音包络（eCCA）与基于噪声码（rCCA）的CCA方法在解码性能上的差异。
评估在顺序刺激呈现中，不同调制深度（0–100%）对AAD准确率的影响。
探讨噪声标记是否能提升神经调控助听器中解码的速度与准确率。
为将此前在视觉领域成功应用的c-VEP范式拓展至听觉注意力解码，建立基础性洞见。

提出的方法

语音刺激通过在50%、70%、90%和100%调制深度下使用独特的二进制伪随机噪声码进行幅度调制，生成码调制音频信号。
受试者在顺序呈现语音刺激时记录脑电图（EEG），采用顺序范式以分离c-AEP反应。
应用了两种解码方法：基于包络的CCA（eCCA）与基于重新卷积的CCA（rCCA），两者均使用典型相关分析将EEG与刺激特征关联。
eCCA以语音包络作为输入，并应用线性判别分析（LDA）进行分类；而rCCA则以噪声码波形作为输入以解码注意力状态。
在多个决策窗口长度（τ = 1, 3, 5, 10, 15, 20, 30 秒）下评估了解码性能，各条件下报告准确率。
对噪声码应用了20 Hz低通滤波，以保留与皮层追踪相关的高频调制成分。

实验结果

研究问题

RQ1在顺序刺激呈现过程中，噪声标记是否能可靠地诱发可检测的码调制听觉诱发电位（c-AEP）？
RQ2与未调制语音相比，使用噪声码对语音进行幅度调制是否能提升听觉注意力解码的准确率？
RQ3在0–100%的调制深度范围内，哪种深度能为eCCA与rCCA方法提供最优的解码性能？
RQ4rCCA方法（聚焦于早期感觉反应）是否优于或至少不逊于eCCA方法（聚焦于语音包络追踪）？
RQ5噪声标记是否能在短决策窗口（如1–3秒）内实现更快的解码，这对实时神经调控助听器至关重要？

主要发现

对于eCCA方法，所有70%、90%和100%的调制深度在所有决策窗口长度下均优于未调制条件（0%）。
100%调制深度在eCCA中达到最高解码准确率，在τ = 1秒时达到61.7%，而0%调制的eCCA为60.4%。
rCCA方法在70%调制深度时达到峰值性能，优于未调制条件，并在部分短窗口中与eCCA相当或略优。
在τ = 1秒时，70%调制的rCCA达到61.7%的准确率，而0%调制的eCCA为60.4%，表明噪声标记在性能上可实现相当或更优表现。
较长的决策窗口（τ ≥ 10秒）在所有调制条件下均提升了eCCA与rCCA的解码性能。
rCCA方法并未显著优于eCCA，但显示出聚焦于早期感觉反应的潜力，提示存在进一步优化空间。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。