[论文解读] Unsupervised Feature Learning for Writer Identification and Writer Retrieval
该论文提出了一种无监督深度特征学习方法,用于作者识别与检索,利用SIFT描述符的聚类成员关系作为代理标签,训练ResNet。该方法在ICDAR17 Historical-WI数据集上取得了最先进性能,优于传统手工设计特征与有监督代理类别方法,在使用m-VLAD编码和二值化图像块时,测试集mAP达到74.8%。
Deep Convolutional Neural Networks (CNN) have shown great success in supervised classification tasks such as character classification or dating. Deep learning methods typically need a lot of annotated training data, which is not available in many scenarios. In these cases, traditional methods are often better than or equivalent to deep learning methods. In this paper, we propose a simple, yet effective, way to learn CNN activation features in an unsupervised manner. Therefore, we train a deep residual network using surrogate classes. The surrogate classes are created by clustering the training dataset, where each cluster index represents one surrogate class. The activations from the penultimate CNN layer serve as features for subsequent classification tasks. We evaluate the feature representations on two publicly available datasets. The focus lies on the ICDAR17 competition dataset on historical document writer identification (Historical-WI). We show that the activation features trained without supervision are superior to descriptors of state-of-the-art writer identification methods. Additionally, we achieve comparable results in the case of handwriting classification using the ICFHR16 competition dataset on historical Latin script types (CLaMM16).
研究动机与目标
- 开发一种无需标注作者数据的深度学习方法,用于作者识别与检索。
- 探究SIFT描述符的无监督聚类是否可作为训练CNN的有效代理类别。
- 在历史文档数据集上,评估无监督特征与最先进手工设计特征及有监督深度特征的性能表现。
- 评估该方法对超参数(如聚类数量、网络深度及预处理选择如二值化)的鲁棒性与敏感性。
提出的方法
- 从训练图像中提取SIFT描述符,并使用k-means对这些描述符进行聚类,生成代理类别。
- 使用以SIFT关键点位置为中心的图像块作为输入,以聚类索引作为目标标签,训练深度残差网络(ResNet)。
- 将训练好的CNN的倒数第二层激活值作为局部特征描述符。
- 使用VLAD(局部聚合描述符的向量)对局部描述符进行编码,以获得全局图像表征。
- 对VLAD向量应用幂次归一化,并将其用于分类或检索任务。
- 在公开基准数据集(ICDAR17与CLaMM16)上评估该方法在作者识别与文字类型分类中的表现。
实验结果
研究问题
- RQ1在缺乏作者标签的情况下,SIFT描述符的无监督聚类能否作为训练深度CNN的有效代理标签?
- RQ2无监督特征学习的性能与最先进手工设计特征(如SIFT + FV,C-Zernike + m-VLAD)在作者识别任务中的表现相比如何?
- RQ3代理类别数量(即聚类数量)是否显著影响所学习特征的性能?
- RQ4对输入图像块进行二值化是否有利于CNN训练并提升特征质量?
- RQ5所提出的方法能否泛化至其他文档分析任务,如中世纪文字类型分类?
主要发现
- 所提出的无监督方法在ICDAR17 Historical-WI测试集上达到74.8%的平均平均精度(mAP),优于SIFT + FV(62.2%)与C-Zernike + m-VLAD(69.2%)方法。
- 即使仅使用2个代理聚类,性能也优于使用真实作者作为代理类别的方法,表明在少样本设置下,基于聚类的监督比基于类别的监督更有效。
- 该方法对聚类数量具有鲁棒性:当聚类数超过1,000后性能趋于稳定,且在5,000个聚类时达到峰值。
- 对输入图像块进行二值化可提升精度并促进更优的特征学习,尽管损失了强度信息,但可能因优化更简单而获益。
- 使用受限SIFT(R-SIFT)进行关键点检测的结果略优于标准SIFT,表明过滤掉模糊图像块可提升训练质量。
- 更深的网络(44层ResNet)相较于20层版本仅带来微小性能提升,表明深度并非此任务的关键因素。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。