QUICK REVIEW

[論文レビュー] EMOPIA: A Multi-Modal Pop Piano Dataset For Emotion Recognition and Emotion-based Music Generation

Hsiao-Tzu Hung, Joann Ching|arXiv (Cornell University)|Aug 3, 2021

Music and Audio Processing被引用数 30

ひとこと要約

EMOPIAは、ポップピアノクリップのマルチモーダル（音声とMIDI）データセットを提供し、4象限の valence-arousal分類のクリップレベルの感情ラベルを付与し、感情認識と感情条件付き象徴的音楽生成を可能にします。データセットには、MIDIの文字起こしとYouTubeの音声リンクを含む387曲からの1,087クリップ、および分類と生成のベースラインモデルが含まれます。

ABSTRACT

While there are many music datasets with emotion labels in the literature, they cannot be used for research on symbolic-domain music analysis or generation, as there are usually audio files only. In this paper, we present the EMOPIA (pronounced `yee-mò-pi-uh') dataset, a shared multi-modal (audio and MIDI) database focusing on perceived emotion in pop piano music, to facilitate research on various tasks related to music emotion. The dataset contains 1,087 music clips from 387 songs and clip-level emotion labels annotated by four dedicated annotators. Since the clips are not restricted to one clip per song, they can also be used for song-level analysis. We present the methodology for building the dataset, covering the song list curation, clip selection, and emotion annotation processes. Moreover, we prototype use cases on clip-level music emotion classification and emotion-based symbolic music generation by training and evaluating corresponding models using the dataset. The result demonstrates the potential of EMOPIA for being used in future exploration on piano emotion-related MIR tasks.

研究の動機と目的

シンボリック領域の MIR 研究と生成を支援する中規模のマルチモーダル感情ラベル付きピアノデータセットを提供する。
Russell の4象限 valence-arousalモデルに整合したクリップレベルの感情アノテーションを可能にする。
音声と象徴的ドメインの両方で、感情認識を考慮した音楽ラベリングと生成に関する研究を促進する。

提案手法

高品質な録音のYouTubeのピアノ音声を収集し、感情的に一貫したクリップを手動でセグメントする。
最先端のピアノ転写モデルを用いて音声からMIDIを自動転写し、音声と整合させる。
Russell の valence-arousal の4象限（HVHA, HVLA, LVHA, LVLA）に基づいてクリップに4つの感情ラベルを付与する。
象徴データをMIDI-like、REMI、CPのトークン化を用いて表現し、モデリングに活用する。
象徴ドメインと音声ドメインの両方で、クリップレベル感情分類モデルを訓練・評価する。
TransformerベースおよびLSTMベースのアーキテクチャを用いた感情条件付き象徴的音楽生成を実証する。

実験結果

リサーチクエスチョン

RQ1シンボリック MIDI-like、REMI、CP表現からクリップレベルの感情をどの程度正しく分類できるか？
RQ2同じ4象限スキームで、音声ドメインの特徴はクリップレベルの感情をどの程度分類できるか？
RQ3感情条件付き象徴的音楽生成は、生成されるピアノ作品で可制御な valence/arousal を生み出せるか？

主な発見

象徴ドメインの分類器は、4象限および valence/arousal タスクで高い精度を達成し、MIDI-like 表現は valence の点で優れた性能を示す。
音声ドメインの分類器は競争力のある性能を示し、MFCCベースの特徴と短チャンクResNetが強力なベースラインを提供する。
価性（valence）の分類は、表現とモダリティを問わず、覚醒（arousal）より一般に難しい。
事前学習を伴うTransformerベースの生成は、主観的評価に基づくと生成された楽曲の感情制御をより良く行える。
自動感情分類器の整合性が弱い場合でも、人間の判断では生成サンプルに感情の制御性が示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。