QUICK REVIEW

[논문 리뷰] Audio Visual Scene-Aware Dialog (AVSD) Challenge at DSTC7

Huda Alamri, Vincent Cartillier|arXiv (Cornell University)|2018. 06. 01.

Multimodal Machine Learning Applications참고 문헌 8인용 수 25

한 줄 요약

이 논문은 DSTC7에서 열린 오디오 시각적 시나리오 인식 대화(AVSD) 챌린지를 소개한다. 이는 비디오, 오디오, 대화 이력 등의 다중모달 입력을 사용하여 영상 콘텐츠에 대해 맥락적으로 관련된 응답을 생성하는 엔드 투 엔드 대화 시스템을 훈련시키기 위한 새로운 과제와 데이터셋을 제공한다. 챌린지는 nlg-eval를 사용한 자동 평가 지표를 통해 자연스럽고 정보가 풍부한 응답을 생성할 수 있는 능력을 평가하며, 참가자들은 CHARADES와 Kinetics 영상에서 수집한 인간이 애너테이션한 대화 데이터를 기반으로 훈련한다.

ABSTRACT

Scene-aware dialog systems will be able to have conversations with users about the objects and events around them. Progress on such systems can be made by integrating state-of-the-art technologies from multiple research areas including end-to-end dialog systems visual dialog, and video description. We introduce the Audio Visual Scene Aware Dialog (AVSD) challenge and dataset. In this challenge, which is one track of the 7th Dialog System Technology Challenges (DSTC7) workshop1, the task is to build a system that generates responses in a dialog about an input video

연구 동기 및 목표

다중모달 입력(영상, 오디오, 대화 이력)을 사용하여 동적인 시각적 장면에 대해 자연스럽고 맥락적으로 관련된 응답을 생성할 수 있는 엔드 투 엔드 대화 시스템을 개발하는 것.
기존 대화 시스템의 한계를 해소하기 위해 정적 이미지 이해를 넘어서 영상 속 이벤트와 물체에 대한 시나리오 인식 대화를 가능하게 하는 것.
통합된 벤치마크와 챌린지를 통해 영상 기반 서술, 시각적 대화, 엔드 투 엔드 신경망 대화 모델의 통합을 촉진하는 것.
객관적 평가 지표(nlg-eval)와 AVSD를 위한 대규모 인간 애너테이션 데이터셋을 활용한 표준화된 평가 프레임워크를 제공하는 것.
7043개의 훈련, 732개의 검증, 733개의 테스트 영상 대화 세션을 포함한 데이터셋을 공개함으로써 다중모달, 시간적, 상호작용 기반 대화 시스템 분야의 연구를 장려하는 것.

제안 방법

AVSD 챌린지는 두 가지 과제로 구성되며, 과제 1(영상 및 텍스트)과 과제 2(텍스트 전용)로 나뉘며, 각 과제는 외부 데이터 사용 여부에 따라 두 가지 버전(a: 외부 데이터 없음; b: 외부 데이터 있음)으로 나뉜다.
참가자들은 영상, 오디오, 대화 이력을 기반으로 응답을 생성해야 하며, 이미지, 운동, 오디오, 음성 모odal의 입력 특징을 활용한다.
데이터셋은 아마존 Mechanical Turk를 통해 수집되었으며, 한 명의 작업자(응답자)가 영상을 시청하고 다른 작업자(질문자)가 단지 세 장의 정적 프레임만을 보고 질문을 던지는 방식이다.
10턴의 대화 후 질문자는 영상의 사건을 요약하는 영상 서술문을 생성하여 완전한 대화-턴 순서를 구성한다.
훈련 데이터는 CHARADES 데이터셋(7043개 훈련, 732개 검증, 733개 테스트 영상)에서 유래되었으며, 향후 Kinetics로 확장할 계획이다.
평가에서는 nlg-eval를 사용하여 시스템 출력을 참값 응답과 비교해 자동 평가 지표(BLEU, METEOR, ROUGE, CIDER)를 계산한다.

실험 결과

연구 질문

RQ1엔드 투 엔드 신경망 대화 모델은 다중모달 입력을 사용하여 동적인 영상 콘텐츠에 대해 맥락적으로 관련된 응답을 얼마나 잘 생성할 수 있는가?
RQ2영상, 오디오, 대화 이력을 통합할 경우 텍스트 전용 기반 모델 대비 응답 품질이 얼마나 향상되는가?
RQ3인간이 애너테이션한 영상 대화 데이터를 기반으로 훈련된 시스템은 자연스럽고 정보가 풍부하며 시간적으로 일관된 응답을 일반화하여 생성할 수 있는가?
RQ4객관적 평가 지표(nlg-eval 등)는 다중모달 대화에서 응답 품질에 대한 인간 평가를 얼마나 잘 예측할 수 있는가?
RQ5외부 데이터 사용이 오디오 시각적 시나리오 인식 대화 생성 성능에 어떤 영향을 미치는가?

주요 결과

AVSD 챌린지는 CHARADES 데이터셋에서 유래한 7043개의 훈련, 732개의 검증, 733개의 테스트 대화 세션을 포함한 대규모 데이터셋을 제공하며, 인간이 애너테이션한 대화와 영상 서술이 포함되어 있다.
이 데이터셋은 영상 속 시간적 사건과 행동에 초점을 맞춘 다중턴 대화를 캡처하며, 질문자는 정적 프레임만으로 장면의 역동성을 유추한다.
이 챌린지는 주로 두 가지 과제를 지원한다: (1) 영상과 텍스트 입력을 사용하는 경우, (2) 텍스트 전용으로만 사용하는 경우이며, 외부 데이터 사용 여부를 선택할 수 있다.
평가에서는 nlg-eval를 사용하여 표준 자동 평가 지표(BLEU, METEOR, ROUGE, CIDER)를 계산해 응답 품질을 평가한다.
이 데이터셋은 시간적, 시각적, 청각적 신호를 통합함으로써 다중모달 대화, 영상 서술, 시각적 대화 분야의 연구를 지원하도록 설계되어 있다.
이 챌린지는 실제 환경에서 동적인 시각적 장면을 이해하고 응답하는 엔드 투 엔드 대화 시스템의 훈련을 발전시키는 것을 목표로 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.