QUICK REVIEW

[논문 리뷰] Dialog-based Interactive Image Retrieval

Xiaoxiao Guo, Hui Wu|arXiv (Cornell University)|2018. 05. 01.

Multimodal Machine Learning Applications참고 문헌 51인용 수 82

한 줄 요약

논문은 대상 이미지와 후보 이미지 간 상대 차이를 설명하는 사용자 시뮬레이터로 학습된 자연어 피드백을 사용한 대화형 이미지 검색 강화 학습 프레임워크를 소개하고, 풋웨어 검색에서 속성 기반 및 지도 학습 베이스라인보다 우수한 성능을 보여준다.

ABSTRACT

Existing methods for interactive image retrieval have demonstrated the merit of integrating user feedback, improving retrieval results. However, most current systems rely on restricted forms of user feedback, such as binary relevance responses, or feedback based on a fixed set of relative attributes, which limits their impact. In this paper, we introduce a new approach to interactive image search that enables users to provide feedback via natural language, allowing for more natural and effective interaction. We formulate the task of dialog-based interactive image retrieval as a reinforcement learning problem, and reward the dialog system for improving the rank of the target image during each dialog turn. To mitigate the cumbersome and costly process of collecting human-machine conversations as the dialog system learns, we train our system with a user simulator, which is itself trained to describe the differences between target and candidate images. The efficacy of our approach is demonstrated in a footwear retrieval application. Experiments on both simulated and real-world data show that 1) our proposed learning framework achieves better accuracy than other supervised and reinforcement learning baselines and 2) user feedback based on natural language rather than pre-specified attributes leads to more effective retrieval results, and a more natural and expressive communication interface.

연구 동기 및 목표

사용자 피드백이 자연어로 제시되는 대화형 이미지 검색 설정을 도입한다.
응답 인코딩, 상태 추적, 후보 생성 결합하는 엔드 투 엔드 대화 관리자 아키텍처를 개발한다.
대상 이미지와 후보 이미지 간의 차이를 설명하는 상대 자막을 제공하는 사용자 시뮬레이터를 활용한 효율적인 RL 학습을 가능하게 한다.
훈련 및 평가를 지원하기 위한 상대적 이미지 자막 작성과 새로운 데이터셋을 제안한다.
자연어 피드백이 고정 속성 피드백보다 우수함을 입증하고 랭크 최적화 RL이 검색 성능을 향상시킴을 보여준다.

제안 방법

세 구성요소 대화 관리자: 응답 인코더, 상태 추적기(GRU), s_t 및 상위-K 최근 이웃 이미지 특징에 따라 다음 후보를 선택하는 후보 생성기.
응답 인코더는 ImgEnc의 이미지 표현과 TxtEnc의 텍스트 표현을 결합하여 x_t로 만든 뒤 선형 투영 W를 적용하여 결합 표현을 얻는다.
훈련은 대상 이미지 순위를 기반으로 기대 할인 보상을 최대화하는 RL 목표를 사용하고, 사용자 시뮬레이터를 활용한 모델 기반 정책 개선 단계를 포함한다.
상대 자막 기반의 사용자 시뮬레이터가 대상 이미지와 후보 이미지 간의 차이를 설명하는 단일 턴 피드백을 생성하며, 이 시뮬레이터는 새로운 상대 자막 데이터셋에서 학습된다.
지도 학습 사전 학습은 타깃 이미지 표현을 히스토리 상태에 가깝게 만들고 임의의 이미지를 멀리 밀어내는 triplet 손실 L_sup를 사용한 다음, 정책을 미세 조정하기 위한 모델 기반 정책 개선을 따른다.

실험 결과

연구 질문

RQ1사전에 정의된 속성 피드백과 비교했을 때 자연어 피드백이 대화형 이미지 검색을 개선할 수 있는가?
RQ2피드백과 최적화를 사용자 시뮬레이터를 활용한 강화 학습 문제로 모델링하는 것이 여러 대화 턴에 걸쳐 더 나은 검색 순위를 얻을 수 있는가?
RQ3사전 학습과 모델 기반 정책 개선의 효과가 순수한 지도 학습이나 순수한 RL 학습과 비교해 어떠한가?
RQ4상대 자막 데이터셋이 대화 기반 검색을 위한 현실적인 사용자 시뮬레이터를 효과적으로 학습시킬 수 있는가?
RQ5속성 기반 베이스라인과 비교했을 때 실제 사용자 연구에서 접근 방식의 성능은 어떠한가?

주요 결과

자연어 피드백이 포함된 RL 프레임워크가 지도 학습 삼중항 손실과 속성 기반 베이스라인보다 더 높은 검색 정확도를 달성한다.
자연어 피드백은 대화 턴에 걸쳐 미리 정의된 상대 속성보다 더 효과적인 검색으로 이어진다.
모델 기반 정책 개선(결정적 사용자 시뮬레이터 사용)이 Self-Critical Sequence Training(SCST) 베이스라인을 능가한다.
풋웨어 검색에서 대화 기반 방법은 실제 사용자와 함께 약 89.9%의 랭킹 백분위를 달성했고 WhittleSearch(속성 기반) 는 70.3%였다.
에이전트는 시뮬레이션에서 단 두 개의 대화 턴으로 평균 랭킹 백분위 98%를 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.