QUICK REVIEW

[论文解读] A Better Variant of Self-Critical Sequence Training

Ruotian Luo|arXiv (Cornell University)|Mar 22, 2020

Advanced Image and Video Retrieval Techniques参考文献 27被引用 28

一句话总结

本文提出了一种自Critical序列训练（SCST）的变体，通过用K个独立采样图像字幕的样本平均基线替代贪婪解码基线，实现了梯度方差的进一步降低。该方法在多个图像字幕基准测试中均取得了稳定的性能提升，包括在Transformer模型上CIDEr得分提升2.0分，且训练成本与标准SCST相同，无额外开销。

ABSTRACT

In this work, we present a simple yet better variant of Self-Critical Sequence Training. We make a simple change in the choice of baseline function in REINFORCE algorithm. The new baseline can bring better performance with no extra cost, compared to the greedy decoding baseline.

研究动机与目标

改进自Critical序列训练（SCST）在序列生成任务中的梯度方差减少效果。
用从多个采样字幕中获得的更稳定、方差更低的基线，替代SCST中的贪婪解码基线。
证明该基线替换可实现一致的性能提升，且不增加训练成本。
在多种模型架构和超参数设置下验证该方法的有效性。

提出的方法

将SCST中的基线（贪婪字幕奖励）替换为每个采样字幕对应的其他K-1个采样字幕的平均奖励。
使用公式 $ b_k = \frac{1}{K-1}\sum_{j \neq k} R(\hat{c}_j) $ 作为第k个采样字幕 $ \hat{c}_k $ 的基线。
应用带此基线的REINFORCE算法计算策略梯度：$ \nabla_\theta \approx (R(\hat{c}_k) - b_k) \nabla_\theta \log p_\theta(\hat{c}_k|I) $。
确保基线与采样字幕 $ \hat{c}_k $ 独立，以满足REINFORCE算法中方差减少的条件。
训练时每张图像使用K=5个字幕，与标准SCST保持一致，以确保公平比较。
将该方法实现为现有训练流程中SCST的即插即用替代方案。

实验结果

研究问题

RQ1样本平均基线是否比SCST中的贪婪解码基线更有效地降低梯度方差？
RQ2所提出的基线是否能在不同模型架构的图像字幕基准上带来性能提升？
RQ3在不同训练超参数（如批量大小和训练时长）下，性能增益是否依然稳健？
RQ4在不同随机种子或初始化条件下，该方法与SCST相比表现如何？
RQ5性能提升是否源于更优的方差减少？该结论能否通过实证分析验证？

主要发现

在使用Transformer架构的COCO Karpathy测试集上，该方法取得了129.6的CIDEr得分，而标准SCST为126.6，提升了2.0分。
在UpDown架构上，CIDEr从122.7提升至123.9，增幅1.2分，且BLEU、ROUGE-L、METEOR和SPICE等所有指标均实现一致提升。
在五个不同随机种子下，该方法始终优于SCST，平均CIDEr得分为127.9，而SCST为127.3。
训练曲线显示，该方法收敛更快，且在早期训练阶段即达到更高的验证性能。
梯度方差分析证实，与SCST相比，该方法更有效地降低了梯度方差，如图2所示。
即使在更长的训练周期或更大的批量大小下，该方法与SCST之间的性能差距依然存在，表明该提升并非由超参数调优所致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。