QUICK REVIEW

[論文レビュー] Domain Adaptation of the Pyannote Diarization Pipeline for Conversational Indonesian Audio

Muhammad Daffa'i Rafi Prasetyo, Ramadhan Andika Putra|arXiv (Cornell University)|Jan 7, 2026

Speech Recognition and Synthesis被引用数 0

ひとこと要約

この論文は英語中心の話者ディアライゼーションパイプライン（pyannote）を合成データとドメイン適応微調整を通じてインドネシア語へ適応し、インドネシア語の会話音声におけるDERを大幅に低減します。

ABSTRACT

This study presents a domain adaptation approach for speaker diarization targeting conversational Indonesian audio. We address the challenge of adapting an English-centric diarization pipeline to a low-resource language by employing synthetic data generation using neural Text-to-Speech technology. Experiments were conducted with varying training configurations, a small dataset (171 samples) and a large dataset containing 25 hours of synthetic speech. Results demonstrate that the baseline exttt{pyannote/segmentation-3.0} model, trained on the AMI Corpus, achieves a Diarization Error Rate (DER) of 53.47\% when applied zero-shot to Indonesian. Domain adaptation significantly improves performance, with the small dataset models reducing DER to 34.31\% (1 epoch) and 34.81\% (2 epochs). The model trained on the 25-hour dataset achieves the best performance with a DER of 29.24\%, representing a 13.68\% absolute improvement over the baseline while maintaining 99.06\% Recall and 87.14\% F1-Score.

研究の動機と目的

英語圏のディアライゼーションモデルとインドネシア語の会話音声とのドメインギャップを埋める。
合成ドメイン内データが事前学習済みディアライゼーションモデルの効果的な微調整を可能にすることを示す。
低リソース言語環境におけるDER、精度、再現率への学習データ量の影響を定量化する。
ディアライゼーションタスクにおける合成データ生成とドメイン適応の再現性のあるワークフローを提供する。

提案手法

edge-ttsとPydubを用いて重複処理を含む ground-truth RTTM を用いた25時間の合成インドネシア語会話音声を生成する。
AMIで前訓練されたpyannote/segmentation-3.0をソースモデルとして使用し、インドメインの合成データで微調整する。
合成データ生成、モデル学習（ドメイン適応）、推論、評価の4段階ワークフローを採用する。
データ漏洩を防ぐため、カスタム DebateIndonesianLarge プロトコルにより合成データを訓練・開発・テストに分割する。
主評価指標としてDiarization Error Rate（DER）を用い、追加で精度、再現率、F1スコアの分析を行う。

実験結果

リサーチクエスチョン

RQ1英語で訓練されたディアライゼーションモデルをインドネシア語の会話音声へ適用する際、ドメイン適応は性能差を埋められるか？
RQ2微調整後の合成インドネシア語データ量はディアライゼーション性能（DER、精度、再現率）にどのような影響を与えるか？
RQ3ドメイン適応されたディアライゼーションシステムにおいて、合成データ量の増加は再現率と精度のトレードオフにどのように影響するか？

主な発見

Metric	AMI Baseline	Indo Adapted (2h)	Indo Adapted (25h)
Precision	68.18%	74.18%	77.78%
Recall	87.23%	100.00%	99.06%
F1-Score	76.54%	85.17%	87.14%
DER	53.47%	34.81%	29.24%

ゼロショットAMiベースラインはインドネシアデータでDER53.47%を示す。
2時間の合成インドネシア語微調整によりDERが34.81%、再現率100.00%、精度74.18%になる。
25時間の合成インドネシア語データでDERは29.24%、再現率99.06%、精度77.78%（F1-Score 87.14%）になる。
合成データを増やすと再現率を高く保ちながら精度が向上し、単一話者スピーチのオーバーラップ誤分類が減少する。
ドメイン適応は、英語→インドネシア語の会話設定におけるディアライゼーション性能ギャップを埋めるために不可欠である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。