QUICK REVIEW

[论文解读] Reading Between the Waves: Robust Topic Segmentation Using Inter-Sentence Audio Features

Steffen Freisinger, Philipp Seeberger|arXiv (Cornell University)|Feb 6, 2026

Speech Recognition and Synthesis被引用 0

一句话总结

该论文提出 MultiSeg，一个多模态主题分割模型，联合微调文本与跨句边界音频编码器以提升边界检测，在文本仅模型和先前多模态基线之上取得提升，并对 ASR 噪声和跨语言数据具有鲁棒性。

ABSTRACT

Spoken content, such as online videos and podcasts, often spans multiple topics, which makes automatic topic segmentation essential for user navigation and downstream applications. However, current methods do not fully leverage acoustic features, leaving room for improvement. We propose a multi-modal approach that fine-tunes both a text encoder and a Siamese audio encoder, capturing acoustic cues around sentence boundaries. Experiments on a large-scale dataset of YouTube videos show substantial gains over text-only and multi-modal baselines. Our model also proves more resilient to ASR noise and outperforms a larger text-only baseline on three additional datasets in Portuguese, German, and English, underscoring the value of learned acoustic features for robust topic segmentation.

研究动机与目标

通过利用跨句声学线索来认识到文本主题分割的局限性并加以改进。
提出一个多模态框架，联合微调文本与边界聚焦音频编码器以进行分割。
在基于 YouTube 的大规模数据集上展示相对于文本仅基线和先前多模态方法的改进。
评估对 ASR 错误的鲁棒性以及对葡萄牙语和德语数据集的跨语言迁移。

提出的方法

在每个跨句边界周围提取两个短音频窗口（n-1 的左端和 n 的右起点），以捕捉边界线索。
使用对称音频编码器（共享权重）对边界音频进行编码并将每个窗口投射到固定维度；将左/右边界表征拼接成声学边界特征 z_n。
用 MiniLM 对每个句子进行编码以获得 s_n，然后与 z_n 拼接形成多模态输入 x_n。
用 RoFormer 编码器处理序列 (x_1,...,x_N)，通过分类头预测边界概率。
端到端训练，联合微调音频编码器（wav2vec 2.0、HuBERT，或 UniSpeech-SAT）与文本编码器；可选的消融实验为对音频编码器进行冻结。
训练采用带类别权重的 BCE 损失；强调边界相关上下文以使声学特征与分割决策对齐。

实验结果

研究问题

RQ1跨句边界声学线索是否能在文本模型之上进一步提升主题分割？
RQ2端到端微调边界聚焦音频编码器是否比冻结或非微调基线带来可观增益？
RQ3在 ASR 噪声下以及跨语言情景下（跨语言迁移）多模态方法的表现如何？

主要发现

Method	Features	F1↑	Prec↑	Rec↑	Pk↓	B↑
ChatGPT [10]	-	39.16 ± 1.03	44.15 ± 1.53	35.20 ± 0.98	29.54 ± 0.46	33.79 ± 0.92
Cross-segment BERT [21]	-	48.41 ± 0.94	46.91 ± 1.13	50.02 ± 1.10	26.47 ± 0.48	40.72 ± 0.94
MiniSeg [29] *	-	43.37 ± 0.60	45.44 ± 0.83	41.48 ± 0.85	28.73 ± 0.39	35.74 ± 0.68
MiniSeg + cf. [29]	-	48.83 ± 0.96	51.87 ± 1.13	46.13 ± 1.09	25.91 ± 0.46	41.17 ± 0.99
MiniSeg +L 3 -Net cf. [14]	-	47.61 ± 0.89	47.58 ± 0.84	47.65 ± 1.18	27.17 ± 0.48	37.75 ± 0.99
MultiSeg (ours)	Audio + Text	52.98 ± 0.93	52.77 ± 0.89	53.19 ± 1.18	23.93 ± 0.50	45.09 ± 1.02

MultiSeg 在 YTSeg 测试集上优于所有文本仅基线，在保持更高 F1 和边界分数的同时，参数数量远少于最强的文本仅基线。
音频编码器的端到端微调结合跨句边界上下文相比非边界感知的音频整合基线，获得显著提升（5.37 F1 点）。
音频模态提高对 ASR 错误的鲁棒性；在高 WER 情况下，多模态模型的 F1/精准度下降小于文本仅模型（例如在 38% WER 结果中表现为更小的 F1/边界分数下降）。
跨数据集和跨语言评估显示多模态模型始终优于更大文本仅模型，尤其在葡萄牙语和德语数据集上，表明语言无关的声学线索有助于边界检测。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。