QUICK REVIEW

[論文レビュー] DALI: a large Dataset of synchronized Audio, LyrIcs and notes, automatically created using teacher-student machine learning paradigm

Gabriel Meseguer-Brocal, Alice Cohen-Hadria|arXiv (Cornell University)|Jun 25, 2019

Music and Audio Processing参考文献 26被引用数 47

ひとこと要約

DALIは、時間揃えされたボーカルと歌詞を含む5358曲の大規模マルチモーダルデータセットを自動的に作成する反復的な教師–生徒学習フレームワークを通じて、Singing Voice Detectionと音声歌詞整合性を向上させる。

ABSTRACT

The goal of this paper is twofold. First, we introduce DALI, a large and rich multimodal dataset containing 5358 audio tracks with their time-aligned vocal melody notes and lyrics at four levels of granularity. The second goal is to explain our methodology where dataset creation and learning models interact using a teacher-student machine learning paradigm that benefits each other. We start with a set of manual annotations of draft time-aligned lyrics and notes made by non-expert users of Karaoke games. This set comes without audio. Therefore, we need to find the corresponding audio and adapt the annotations to it. To that end, we retrieve audio candidates from the Web. Each candidate is then turned into a singing-voice probability over time using a teacher, a deep convolutional neural network singing-voice detection system (SVD), trained on cleaned data. Comparing the time-aligned lyrics and the singing-voice probability, we detect matches and update the time-alignment lyrics accordingly. From this, we obtain new audio sets. They are then used to train new SVD students used to perform again the above comparison. The process could be repeated iteratively. We show that this allows to progressively improve the performances of our SVD and get better audio-matching and alignment.

研究の動機と目的

4段階の歌詞の細分化レベルを備えた、同期された音声、歌詞、ボーカルメロディノートの大規模で公開可能なマルチモーダルデータセットを提供する。
SVDを改善し、音声注釈の整合を向上させる反復的な教師-生徒学習フレームワークを説明する。
完全ではないがより大規模なトレーニングデータを教師-生徒学習で活用することで、異なるデータセット間の一般化が改善されることを示す。
自動候補音声の取得と整合が、MIR研究のデータセット作成をスケールさせる方法を示す。

提案手法

正確な音声版が欠如している手動のカラオケベースの注釈（時間、ノート、テキスト）を収集する。
WASABIとリンクした歌情報およびYouTubeから候補音声トラックを取得し、NCCを用いて注釈のボイスシーケンスと歌声確率シーケンスを整合させ、最良の一致を選択する。
ラベル付けデータで訓練されたConvNetベースのSVDシステムで歌声確率を計算し、NCCと brute-force fr検索を用いてオフセットoとフレームレートfrを最適化して注釈と整合させる。
より大きな一致セットで『学生』SVDを反復的に訓練し、p̂(t)を改善してデータセットを再拡張し、整合性品質を高める教師-生徒ループを形成する。

実験結果

リサーチクエスチョン

RQ1カラオケ注釈とウェブ音声候補から自動的に構築された大規模な同期音声・歌詞・ノートのマルチモーダルデータセットを作成できるか？
RQ2教師-生徒学習パラダイムは単一パスのシステムより歌声検出と整合品質を改善するか？
RQ3不完全で大規模なデータで訓練したSVDモデルと、小規模で高品質なラベル付きデータを訓練したモデルのクロスデータセット一般化はどうなるか？
RQ4SVDの改善はDALIデータセットのサイズと品質にどのような影響を与えるか？

主な発見

SVDシステム	テストセット	J_test (16)	M_test (36)
Teacher_J_train (61)	J_test	87%	82%
Student (Teacher_J_train) (2673)	J_test	82%	82%
Teacher_M_train (98)	M_test	76%	85%
Student (Teacher_M_train) (1596)	M_test	80%	84%
Teacher_J+M_train (159)	J_test	82%	82%
Student (teacher_J+M_train) (2440)	J_test	86%	87%

DALIには5358曲が含まれ、四つの細粒度レベルで完全な音声と時間揃いの歌詞およびボーカルノートを含む。
ConvNetベースの歌声検出器（教師）が、注釈のボイスシーケンス（avs）と最大の相互相関をとることにより音声候補を選択する。
教師-生徒実験では、学生はクロスデータセットテストで通常、教師よりも上回る（例：JamendoとMedleyDB）。
クロスデータセット評価では、一つの教師の出力で訓練された学生が他方のデータセットでより高いフレーム精度を達成できることが示される（例：J_testとM_testの双方で86.5%）。
この文脈で深層学習には、より大きく不完全なデータを使用する方が、小さく完璧なデータより有利である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。