[논문 리뷰] Image Inspired Poetry Generation in XiaoIce
이 논문은 시각적 콘텐츠를 예술적인 현대 중국어 시로 변환하는 혁신적인 이미지-시 생성 시스템을 제안한다. 이 시스템은 이미지에서 유도된 关련어(객체 및 감정)를 추출하고, 인간의 시와의 연관성을 통해 이를 확장한 후, 계층적 RNN을 사용해 일관되고 감정적으로 공감되는 구절을 생성한다. 이 방법은 상상력, 감정적 영향력, 예술적 품질 측면에서 이미지 캡션 및 기존의 시 생성 기준보다 뛰어나며, 2017년 이래로 실서비스에서 1,200만 개 이상의 시를 생성했다.
Vision is a common source of inspiration for poetry. The objects and the sentimental imprints that one perceives from an image may lead to various feelings depending on the reader. In this paper, we present a system of poetry generation from images to mimic the process. Given an image, we first extract a few keywords representing objects and sentiments perceived from the image. These keywords are then expanded to related ones based on their associations in human written poems. Finally, verses are generated gradually from the keywords using recurrent neural networks trained on existing poems. Our approach is evaluated by human assessors and compared to other generation baselines. The results show that our method can generate poems that are more artistic than the baseline methods. This is one of the few attempts to generate poetry from images. By deploying our proposed approach, XiaoIce has already generated more than 12 million poems for users since its release in July 2017. A book of its poems has been published by Cheers Publishing, which claimed that the book is the first-ever poetry collection written by an AI in human history.
연구 동기 및 목표
- 시각적 콘텐츠에 영감을 받아 인간의 시적 반응을 모방하는 예술적인 현대 중국어 시를 생성하는 시스템을 개발한다.
- 인간이 쓴 시에서 유도한 연관성을 활용해 이미지에서 유도된 키워드를 확장하여 시의 다양성과 상상력을 향상시킨다.
- 계층적 순환 신경망 아키텍처를 통해 생성된 시의 유창성과 일관성을 보장한다.
- 감정 깊이와 창의성에 중점을 두고 인간 평가를 통해 시스템의 예술적 품질을 기준 모델들과 비교 평가한다.
- 실제 AI 제품(XiaoIce)에 구현하고 확장하여 실용성과 사용자 참여도를 입증한다.
제안 방법
- 컴퓨터 비전과 정서 분석을 통해 이미지 입력에서 핵심 객체와 감정을 추출한다.
- 대규모 인간 시 코퍼스에서의 통계적 연관성을 활용해 추출된 키워드를 필터링하고 확장한다.
- 계층적 순환 신경망이 문장 단위로 순차적으로 시를 생성하여 문장 간 일관성과 전체적인 구조를 유지한다.
- 실시간으로 문장 품질을 검사하는 유창성 체크기로 출력 품질이 낮을 경우 재생성을 유도한다.
- 생성된 시가 입력 이미지와 의미적으로 일치하도록 이미지 관련성 검증 기능을 통합한다.
- 대규모 현대 중국어 시 데이터셋으로 훈련하고, 인간 평가 피드백을 통해 미세조정한다.
실험 결과
연구 질문
- RQ1AI 시스템이 이미지 캡션보다 더 상상력이 풍부하고 감정적으로 공감되는 현대 중국어 시를 생성할 수 있는가?
- RQ2이미지에서 유도된 키워드는 어떻게 효과적으로 확장하여 시의 다양성과 창의성을 향상시킬 수 있는가?
- RQ3계층적 RNN 모델이 개방형, 비정형적인 현대 중국어 시 생성에서 얼마나 잘 일관성과 유창성을 유지할 수 있는가?
- RQ4예술적 품질 측면에서 이미지-시 생성은 전통적 이미지 캡션 및 기존의 시 생성 시스템과 어떻게 비교되는가?
- RQ5이미지에서 시를 생성하는 시스템이 대규모로 높은 사용자 참여도와 예술적 영향력을 달성할 수 있는가?
주요 결과
- 제안된 방법은 상상력, 감정적 영향력(감동), 전반적인 인상성에서 각각 78.3%, 74.1%, 71.2%의 투표 비율로 이미지2캡션 및 CTRIP 기준보다 뚜렷이 뛰어났다.
- 인간 평가자들은 CTRIP가 생성한 유창하지만 맥락적으로 덜 관련된 시에 비해, 시스템이 생성한 시가 더 상상력이 풍부하고 감동적이라고 평가했다.
- 이미지2캡션보다는 낮은 관련성에도 불구하고, 시스템의 생성 시는 일관되게 높은 예술적 품질과 감정적 공명도를 기록했다.
- 2017년 7월 이래 XiaoIce를 통해 실서비스에서 1,200만 개 이상의 시를 생성했으며, '해돋이 창문을 그리워하는 날들'이라는 제목의 시집을 출간하여 인류 역사상 최초로 AI가 쓴 시집이 되었다.
- 키워드 확장 전략은 시의 다양성과 감정 깊이를 크게 향상시켜, 시각적 자극으로부터 외로움이나 희망 같은 감정을 자극할 수 있도록 했다.
- 실시간 유창성 체크 기능을 갖춘 계층적 RNN은 문장 품질과 일관성을 향상시켜, 생성된 시에서 일관되지 않거나 어색한 표현을 줄였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.