[論文レビュー] Optical Music Recognition with Convolutional Sequence-to-Sequence Models.
本論文は、実世界の画像拡張を施した新規にリリースされた大規模で人間がアノテートしたデータセットを用いて、フルスコア画像に直接学習するエンド・ツー・エンドの光学楽譜認識(OMR)のための畳み込み順序系列モデルを導入する。80%のノートレベルの正確性、81%のピッチ正確性、94%の持続時間正確性を達成し、商業的OMRツールを上回る性能を示した。
Optical Music Recognition (OMR) is an important technology within Music Information Retrieval. Deep learning models show promising results on OMR tasks, but symbol-level annotated data sets of sufficient size to train such models are not available and difficult to develop. We present a deep learning architecture called a Convolutional Sequence-to-Sequence model to both move towards an end-to-end trainable OMR pipeline, and apply a learning process that trains on full sentences of sheet music instead of individually labeled symbols. The model is trained and evaluated on a human generated data set, with various image augmentations based on real-world scenarios. This data set is the first publicly available set in OMR research with sufficient size to train and evaluate deep learning models. With the introduced augmentations a pitch recognition accuracy of 81% and a duration accuracy of 94% is achieved, resulting in a note level accuracy of 80%. Finally, the model is compared to commercially available methods, showing a large improvements over these applications.
研究の動機と目的
- シンボルレベルのアノテーションを必要とせず、フルスコア画像を処理できるエンド・ツー・エンドで学習可能なOMRシステムの開発を目的とする。
- 深層学習に適した十分に大きなデータセットを提供するため、大規模で高品質なシンボルアノテート済みOMRデータセットの不足に応えるために、初めて公開可能な十分に大きなデータセットを構築・リリースすることを目的とする。
- 個々のシンボルではなく、フルの音楽文脈を用いた学習により、文脈的理解を活用することで、OMR性能の向上を図ることを目的とする。
- 実際のスキャンや印刷のばらつきを模倣するデータ拡張を用いて、現実の画像条件下でのモデルの評価を実施することを目的とする。
- 既存の商業的OMRソリューションと比較して優れた性能を示すことを目的とする。
提案手法
- 畳み込みニューラルネットワークを特徴抽出に、順序系列アーキテクチャを楽譜表記の変換に用いる、畳み込み順序系列モデルを提案する。
- モデルは、生の画像入力を直接受けて、楽譜シンボルのシーケンスを予測するように、フルスタッフ画像上でエンド・ツー・エンドに学習する。
- 多様なスコア例を含む、新しい大規模で人間がアノテートしたOMRデータセットを構築・リリースする。
- 訓練中に、照明のばらつき、ノイズ、スタッフ線の歪みなどの実世界の状態を模倣するための画像拡張を適用する。
- アテンション機構を用いて、視覚的特徴と出力シーケンス内の対応する楽譜シンボルをアライメントする。
- インスタンスレベルのシンボルアノテーションを回避するため、シーケンスレベルの監視を用いて訓練を行う。
実験結果
リサーチクエスチョン
- RQ1フルスコア画像上で学習した順序系列モデルは、シンボルレベルのアノテーションを必要とせずに高いOMR正確性を達成できるか?
- RQ2本モデルの性能は、ピッチ、持続時間、ノートレベルの正確性において、既存の商業的OMRシステムと比較してどの程度優れているか?
- RQ3実世界の画像ばらつきを模倣するデータ拡張は、モデルの一般化能力および耐性向上にどの程度寄与するか?
- RQ4大規模で公開可能で、人間がアノテートしたOMRデータセットは、深層学習モデルの有効な訓練を可能にするか?
- RQ5個々のシンボルの予測ではなく、フルの音楽文脈での学習は、文脈理解の向上と認識精度の向上に寄与するか?
主な発見
- 提案されたモデルは、テストセットで80%のノートレベル正確性を達成し、フルスコア認識において強力な性能を示した。
- ピッチ認識正確性は81%に達し、多様な表記スタイルにわたり、楽器のピッチを信頼性高く同定できることを示した。
- 持続時間認識正確性は94%であり、OMRにおける主な課題の一つであるノート持続時間の検出において高い正確性を示した。
- 既存の商業的OMRツールを著しく上回る性能を示し、分野における大きな前進を示した。
- 訓練時に実世界の画像拡張を用いることで、モデルの耐性および未観測でノイズの多い入力への一般化能力が向上した。
- 初めて公開可能な大規模で人間がアノテートしたOMRデータセットのリリースにより、今後の研究やベンチマークが可能になった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。