QUICK REVIEW

[論文レビュー] A Survey on Machine Learning Techniques for Auto Labeling of Video, Audio, and Text Data

Shikun Zhang, Omid Jafari|arXiv (Cornell University)|Sep 8, 2021

Music and Audio Processing参考文献 89被引用数 27

ひとこと要約

動画、音声、テキストデータ全体における最適化されたデータアノテーションとラベリング手法の調査。無監督、半教師あり、教師あり、アクティブ学習、転移学習戦略とアノテーションツールをカバーする。

ABSTRACT

Machine learning has been utilized to perform tasks in many different domains such as classification, object detection, image segmentation and natural language analysis. Data labeling has always been one of the most important tasks in machine learning. However, labeling large amounts of data increases the monetary cost in machine learning. As a result, researchers started to focus on reducing data annotation and labeling costs. Transfer learning was designed and widely used as an efficient approach that can reasonably reduce the negative impact of limited data, which in turn, reduces the data preparation cost. Even transferring previous knowledge from a source domain reduces the amount of data needed in a target domain. However, large amounts of annotated data are still demanded to build robust models and improve the prediction accuracy of the model. Therefore, researchers started to pay more attention on auto annotation and labeling. In this survey paper, we provide a review of previous techniques that focuses on optimized data annotation and labeling for video, audio, and text data.

研究の動機と目的

教師あり学習におけるデータラベリングの重要性とコスト、および自動アノテーションの動機を説明する。
動画、音声、テキスト領域全体の最適化されたアノテーション手法を調査・分類する。
自動または半自動ラベリングをサポートする既存のアノテーションツールとフレームワークを要約する。
画像中心の調査との違いを強調し、今後の研究のギャップを特定する。

提案手法

動画データに対する自動および半自動アノテーション技術の文献をレビューし、無監督、半教師あり、教師あり、アクティブ学習、転移学習、マルチラベル手法を含む。
音声データのアノテーションに関する文献を、無監督、半教師あり、教師あり、アクティブ学習、マルチラベル手法を中心にレビューする。
自動/半自動戦略を用いた固有表現抽出、テキスト分類、品詞タグ付けに焦点を当てたテキストデータのアノテーションに関する文献をレビューする。
動画・音声・テキストデータ用の利用可能なアノテーションツールを要約し、それらの機能と適用文脈を論じる。
知見を構造化された分類法に整理し、今後の研究の方向性を提案する。

実験結果

リサーチクエスチョン

RQ1動画、音声、テキストデータのデータアノテーションを最適化する主な戦略は何か。
RQ2無監督、半教師、教師あり、アクティブ学習、転移学習のアプローチは、領域間でどのように比較されるか。
RQ3どのようなアノテーションツールが存在し、それらは自動または半自動ラベリングをどうサポートしているか。
RQ4ラベリングコストをさらに削減し、堅牢性を高めるための提案されている今後の方向性は何か。

主な発見

動画データの最適化は、学習パラダイム（無監督、半監督、教師あり、アクティブ学習、転移学習）ごとに分類され、マルチラベルおよびグラフベースの手法も含まれる。
音声データのアノテーションは、無監督の特徴学習、半教師ありおよび教師ありのタグ付け、ダイアリゼーションのためのアクティブ学習、タグの相関を捉えるマルチラベル手法を活用している。
テキストデータのアノテーションの進展には、NERの事前アノテーション、半自動ラベリング、精度向上のためのドメイン特有の分類体系と埋め込み戦略が含まれる。
動画・音声・テキスト向けの実用的なアノテーションツールが複数存在し、自動アノテーション、半自動ラベリング、クラウドベースのアノテーションサービスを可能にしている。
本調査は、アクティブ学習と転移学習の組み合わせの可能性を強調し、深層強化学習や異種マルチモーダルデータの将来の機会に言及している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。