QUICK REVIEW

[論文レビュー] No Metrics Are Perfect: Adversarial Reward Learning for Visual Storytelling

Xin Wang, Wenhu Chen|arXiv (Cornell University)|Apr 24, 2018

Multimodal Machine Learning Applications参考文献 34被引用数 23

ひとこと要約

本稿では、人間のデモから報酬関数を学習するAdversarial REward Learning (AREL)というフレームワークを提案する。ポリシーと報酬モデルの対抗的訓練により、自動指標を上回る物語の質が向上し、関連性、表現力、具体性の面で人間評価において顕著な向上を達成した。特に、テューリングテストにおいて人間のアノテーターをだます能力が顕著に向上した。

ABSTRACT

Though impressive results have been achieved in visual captioning, the task of generating abstract stories from photo streams is still a little-tapped problem. Different from captions, stories have more expressive language styles and contain many imaginary concepts that do not appear in the images. Thus it poses challenges to behavioral cloning algorithms. Furthermore, due to the limitations of automatic metrics on evaluating story quality, reinforcement learning methods with hand-crafted rewards also face difficulties in gaining an overall performance boost. Therefore, we propose an Adversarial REward Learning (AREL) framework to learn an implicit reward function from human demonstrations, and then optimize policy search with the learned reward function. Though automatic eval- uation indicates slight performance boost over state-of-the-art (SOTA) methods in cloning expert behaviors, human evaluation shows that our approach achieves significant improvement in generating more human-like stories than SOTA systems.

研究の動機と目的

自動指標が視覚的物語生成の質を評価する際の限界を是正すること。
強化学習による物語生成において、手作業で作成された報酬のバイアスとスパarsityを克服すること。
画像シーケンスからより表現的で一貫性があり、人間らしい物語を生成する手法を開発すること。
人間評価が自動指標では捉えきれない優れた性能を明らかにすること。
対抗的報酬学習が、より豊かな意味的表現と想像力を備えた物語生成に有効であることを検証すること。

提案手法

ARELは、物語を生成するポリシー・モデルと、人間のデモから暗黙の報酬を学ぶ報酬モデルを用いた対抗的訓練を採用する。
報酬モデルは、人間が書いた物語と生成された物語を識別するように学習され、GANに類似したディスクライマ構造を採用する。
報酬学習と分布近似を結びつけるためにボルツマン分布が導入され、ポリシー最適化の改善が図られる。
学習された報酬関数を用いてポリシーが最適化され、人間らしい物語パターンとの整合性が向上する。
フレームワークは、人間がアノテートした物語シーケンスをデモとして、VISTデータセット上でエンドツーエンドに訓練される。
アマゾン・メカニカル・ターキューロンを用いた人間評価では、テューリングテストとペairwise比較が実施され、関連性、表現力、具体性が評価された。

実験結果

リサーチクエスチョン

RQ1対抗的報酬学習は、自動指標を超えて視覚的物語生成を改善できるか？
RQ2学習された報酬関数は、人間らしい物語の質をどれほど正確に捉えられるか？
RQ3自動指標と人間が感じる物語の質の間にはどの程度相関があるか？
RQ4本手法は、最先端手法よりも表現的で一貫性があり、具体的な物語を生成できるか？
RQ5本手法は、人間の評価者をだます水準の物語を生成できるか？

主な発見

テューリングテストにおいて、ARELは45.8%の成功率を達成し、XE-ss（28.3%）、BLEU-RL（32.1%）、CIDEr-RL（19.7%）、GAN（39.5%）を大きく上回った。
ペairwise人間評価では、関連性で5:0:0、表現力で4:0:1、具体性で5:0:0の勝率を示し、XE-ssに対して全次元で顕著な優位性を示した。
METEOR や CIDEr といった自動指標ではわずかな向上にとどまったが、人間評価では顕著な性能格差が確認され、指標の限界が裏付けられた。
図7の定性的な例では、ARELが XE-ss よりも文法的に正しい、一貫性があり、画像に正確な物語を生成していることが示された。
テューリングテストでは、5人の作業者のうち3人がARELの生成物を人間が書いたと判断しており、強い人間らしい生成能力を示している。
研究により、自動指標が視覚的物語の意味的豊かさや物語の質を評価するのに信頼できないことが実証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。