QUICK REVIEW

[論文レビュー] Unsupervised Feature Learning for Writer Identification and Writer Retrieval

Vincent Christlein, Martin Gropp|arXiv (Cornell University)|May 25, 2017

Handwritten Text Recognition Techniques参考文献 43被引用数 90

ひとこと要約

本稿では、SIFT特徴量のクラスタメンバーシップを代替ラベルとして用い、ResNetを訓練する非教師付き深層特徴学習手法を提案する。この手法は、ICDAR17 Historical-WIデータセットにおいて、従来の手作業特徴量および教師付き代替クラス手法を上回る最先端の性能を達成し、m-VLAD符号化とバイナリ化されたパッチを用いることで、テストセットで74.8%のmAPを達成した。

ABSTRACT

Deep Convolutional Neural Networks (CNN) have shown great success in supervised classification tasks such as character classification or dating. Deep learning methods typically need a lot of annotated training data, which is not available in many scenarios. In these cases, traditional methods are often better than or equivalent to deep learning methods. In this paper, we propose a simple, yet effective, way to learn CNN activation features in an unsupervised manner. Therefore, we train a deep residual network using surrogate classes. The surrogate classes are created by clustering the training dataset, where each cluster index represents one surrogate class. The activations from the penultimate CNN layer serve as features for subsequent classification tasks. We evaluate the feature representations on two publicly available datasets. The focus lies on the ICDAR17 competition dataset on historical document writer identification (Historical-WI). We show that the activation features trained without supervision are superior to descriptors of state-of-the-art writer identification methods. Additionally, we achieve comparable results in the case of handwriting classification using the ICFHR16 competition dataset on historical Latin script types (CLaMM16).

研究の動機と目的

ラベル付き筆者データを必要としない、筆者識別および検索のためのディーブラーニング手法の開発。
SIFT特徴量の非教師付きクラスタリングが、CNNの訓練に有効な代替クラスとして機能するかの調査。
歴史的文書データセットにおける、非教師付き特徴量と最先端の手作業特徴量および教師付き深層特徴量の性能評価。
クラスタ数、ネットワークの深さ、バイナリ化などの前処理選択といったハイパーパrameterに対する、手法の頑健性と感度の評価。

提案手法

訓練画像からSIFT特徴量を抽出し、k-meansを用いてクラスタリングして代替クラスを生成する。
SIFTキーポoinトの位置を中心とする画像パッチを用いて、クラスタインデックスをターゲットラベルとして、深層残差ネットワーク（ResNet）を訓練する。
訓練済みCNNの最終層の1つ前（penultimate layer）の活性化出力を局所的特徴記述子として使用する。
VLAD（局所的に集約された記述子のベクトル）を用いて、局所的特徴記述子をグローバルな画像表現に符号化する。
VLADベクトルにパワー正規化を適用し、分類または検索タスクに使用する。
公開ベンチマーク（ICDAR17およびCLaMM16）を用いて、筆者識別およびスクリプトタイプ分類の評価を実施する。

実験結果

リサーチクエスチョン

RQ1筆者ラベルが存在しない状況において、SIFT特徴量の非教師付きクラスタリングが、深層CNNの訓練に有効な代替ラベルとして機能するか。
RQ2非教師付き特徴学習の性能は、SIFT + FV や C-Zernike + m-VLAD といった最先端の手作業特徴量と比較して、筆者識別においてどのように差がつくか。
RQ3代替クラスの数（すなわちクラスタ数）が、学習された特徴量の性能に顕著に影響を与えるか。
RQ4入力パッチのバイナリ化が、CNNの訓練および特徴量品質の向上に寄与するか。
RQ5提案手法は、中世スクリプトタイプ分類といった他のドキュメント解析タスクにも一般化可能か。

主な発見

提案手法は、ICDAR17 Historical-WIテストセットで平均平均精度（mAP）74.8%を達成し、SIFT + FV（62.2%）および C-Zernike + m-VLAD（69.2%）を上回った。
2つの代替クラスタを用いても、実際に筆者をラベルとして使用した場合よりも優れた性能を示しており、低ショット設定においてクラスタベースの教師信号がクラスレベルの教師信号よりも効果的であることを示している。
クラスタ数に頼らずに頑健である：1,000を超えるクラスタ数で性能が安定し、5,000クラスタでピークを記録した。
入力パッチのバイナリ化は、強度情報の損失にもかかわらず、精度を向上させ、より良い特徴学習をもたらした。これは、最適化が容易になるためと推測される。
標準SIFTよりも制限付きSIFT（R-SIFT）をキーポイント検出に用いることで、わずかに優れた結果が得られた。これは、曖昧なパッチを除外することで訓練品質が向上することを示唆している。
44層のResNetは20層バージョンと比較して、わずかに性能向上を示すにとどまり、このタスクにおいては深さが重要な要因ではないことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。