[論文レビュー] Image Inspired Poetry Generation in XiaoIce
本論文では、視覚的コンテンツを芸術的現代中国語詩に変換する新規な画像から詩生成システムを提示する。このシステムは、画像から抽出したキーワード(対象物と感情)を、人間の詩との関連性を用いて拡張し、階層的RNNを用いて一貫性があり感情に満ちた詩を生成する。この手法は、想像力、感情的インパクト、芸術的質において、画像キャプションや既存の詩生成ベースラインを著しく上回り、2017年以降に生産環境で1,200万首以上の詩が生成された。
Vision is a common source of inspiration for poetry. The objects and the sentimental imprints that one perceives from an image may lead to various feelings depending on the reader. In this paper, we present a system of poetry generation from images to mimic the process. Given an image, we first extract a few keywords representing objects and sentiments perceived from the image. These keywords are then expanded to related ones based on their associations in human written poems. Finally, verses are generated gradually from the keywords using recurrent neural networks trained on existing poems. Our approach is evaluated by human assessors and compared to other generation baselines. The results show that our method can generate poems that are more artistic than the baseline methods. This is one of the few attempts to generate poetry from images. By deploying our proposed approach, XiaoIce has already generated more than 12 million poems for users since its release in July 2017. A book of its poems has been published by Cheers Publishing, which claimed that the book is the first-ever poetry collection written by an AI in human history.
研究の動機と目的
- 視覚的コンテンツにインspiredされた芸術的現代中国語詩を生成するシステムを開発すること。人間の画像に対する詩的反応を模倣する。
- 人間が書いた詩からの関連性を用いて、画像由来のキーワードを拡張することで、詩の多様性と想像力を向上させること。
- 階層的再帰的ニューラルネットワークアーキテクチャを用いて、生成された詩の流暢さと一貫性を保証すること。
- 人間による評価を用いて、感情の深さと創造性に注目し、芸術的質の面でベースラインと比較してシステムの芸術的質を評価すること。
- 実世界のAI製品(XiaoIce)に展開・スケーリングし、実用的妥当性とユーザー参加度を示すこと。
提案手法
- コンピュータビジョンと感情分析を用いて、画像入力を処理し、コアな対象物と感情を抽出する。
- 大規模な人間が書いた詩のコーパスからの統計的関連性を用いて、抽出されたキーワードをフィルタリングおよび拡張する。
- 階層的再帰的ニューラルネットワークが、文の間の一貫性と全体の構造を維持しながら、詩を文単位で生成する。
- リアルタイムで文の品質を検証するための流暢さチェックモジュールがあり、低品質な出力を検出すると再生成をトリガーする。
- 生成された詩が入力画像と意味的に整合しているかを保証するため、画像関連性の検証を統合する。
- パイプラインは、現代中国語詩の大規模データセットで学習され、人間による評価フィードバックを用いてファインチューニングされる。
実験結果
リサーチクエスチョン
- RQ1AIシステムは、画像キャプションよりも想像力が豊かで、感情に訴えかける現代中国語詩を生成できるか?
- RQ2画像由来のキーワードを効果的に拡張することで、詩の多様性と創造性をどのように向上させられるか?
- RQ3階層的RNNモデルは、開放的で構造のない現代中国語詩生成において、どの程度一貫性と流暢さを維持できるか?
- RQ4芸術的質において、画像から詩を生成する手法は、従来の画像キャプション生成や既存の詩生成システムと比較してどう異なるか?
- RQ5画像から詩を生成するシステムは、スケール上で高いユーザー参加度と芸術的インパクトを達成できるか?
主な発見
- 提案手法は、想像力、感情的インパクト(心を打つ)、全体的なインパクトにおいて、画像キャプションとCTRIPベースラインを著しく上回り、それぞれ78.3%、74.1%、71.2%の投票を獲得した。
- 人間の評価者により、システムが生成した詩はCTRIPの詩よりも想像力に富み、心を打つと評価された。CTRIPは流暢ではあるが、文脈的に関連性が低い詩を生成した。
- 画像キャプションより関連性が低くても、システムが生成した詩は芸術的質と感情的共鳴性において一貫して高い評価を受けた。
- 2017年7月以降、XiaoIceを通じて生産環境で1,200万首以上の詩が生成され、『太陽の光が窓をなでる』というタイトルの詩集が出版された。これは人類史上初のAIが書いた詩集である。
- キーワード拡張戦略により、詩の多様性と感情的深さが著しく向上し、視覚的刺激から孤独や希望といった感情を喚起できるようになった。
- リアルタイムの流暢さチェックを備えた階層的RNNは、文の品質と一貫性を向上させ、生成された詩に一貫性のないまたは不自然な表現を減らした。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。