QUICK REVIEW

[논문 리뷰] Pythia v0.1: the Winning Entry to the VQA Challenge 2018

Yu Jiang, Vivek Natarajan|arXiv (Cornell University)|2018. 07. 26.

Multimodal Machine Learning Applications참고 문헌 16인용 수 165

한 줄 요약

Pythia v0.1은 모듈식 VQA 프레임워크로, 아키텍처 조정, 학습 스케줄, 특징 미세조정, 데이터 증강 및 다양한 앙상블을 통해 업-다운 어텐션 모델을 개선하고 VQA v2.0에서 최첨단 성능을 달성합니다.

ABSTRACT

This document describes Pythia v0.1, the winning entry from Facebook AI Research (FAIR)'s A-STAR team to the VQA Challenge 2018. Our starting point is a modular re-implementation of the bottom-up top-down (up-down) model. We demonstrate that by making subtle but important changes to the model architecture and the learning rate schedule, fine-tuning image features, and adding data augmentation, we can significantly improve the performance of the up-down model on VQA v2.0 dataset -- from 65.67% to 70.22%. Furthermore, by using a diverse ensemble of models trained with different features and on different datasets, we are able to significantly improve over the 'standard' way of ensembling (i.e. same model with different random seeds) by 1.31%. Overall, we achieve 72.27% on the test-std split of the VQA v2.0 dataset. Our code in its entirety (training, evaluation, data-augmentation, ensembling) and pre-trained models are publicly available at: https://github.com/facebookresearch/pythia

연구 동기 및 목표

모듈식 VQA 연구 플랫폼의 개발을 Pythia로 명명하는 것을 동기화한다.
타깃이 지정된 아키텍처 및 학습 변경이 VQA 정확도를 개선한다는 것을 보여준다.
데이터 증강과 미세 조정된 특징이 성능을 높인다는 것을 입증한다.
표준 시드 이외의 그리드 특징과 다양한 앙상블의 이점을 탐구한다.

제안 방법

bottom-up top-down(up-down) 어텐션 모델을 모듈식 프레임워크로 재구현한다.
가이트형 tanh를 가중치 정규화와 ReLU로 대체하고, 융합에 Hadamard 곱을 사용하며 시그모이드 분류기를 사용한다.
300D GloVe 임베딩, GRU 기반 질문 인코딩, 질문 주의 모듈을 사용한다.
Adamax를 워밍업 학습 스케줄과 단계적 학습률 감소로 적용하여 학습을 개선한다.
Detectron FPN 기반 디텍터와 2048D fc6/fc7 특징으로 바텀업 특징을 미세 조정한다.
Visual Genome 및 VisDial로 데이터를 확장하고 좌우 토큰 교환으로 대칭 이미지를 만들며, 격자 특징과 100개의 바운딩 박스 제안을 도입한다.
두 가지 앙상블을 구성한다: (i) 동일 모델 시드; (ii) 다른 특징과 데이터 원천으로 학습된 다양한 모델들.

실험 결과

연구 질문

RQ1모듈식으로 나누어진 VQA 연구가 상호 교환 가능한 컴포넌트로 재사용성과 성능을 향상시킬 수 있는가?
RQ2아키텍처 조정(활성화, 융합), 학습 속도 스케줄, 특징 미세 조정이 VQA 정확도에 미치는 영향은 무엇인가?
RQ3데이터 증강 및 추가적인 격자 기반 이미지 특징이 바텀업 특징만으로도 성능을 개선하는가?
RQ4다양한 모델 앙상블이 동일한 아키텍처에 서로 다른 시드를 가진 앙상블보다 더 나은가?

주요 결과

Baseline up-down은 test-dev에서 65.32% 및 test-std에서 65.67%를 달성했다.
아키텍처에 대한 수정으로 test-dev가 66.91%로 상승하였고(테스트 표준치 미보고).
학습 스케줄 개선으로 test-dev가 68.05%로 상승했다.
바텀업 특징의 미세 조정으로 test-dev가 68.49%로 상승했다.
데이터 증강으로 test-dev가 69.24%로 상승했다.
격자 특징으로 test-dev가 69.81%로 상승했다.
100 개의 바운딩 박스 제안을 사용하면 test-dev가 70.01%로 상승했고 test-std가 70.24%로 상승했다.
앙상블, 30 × 동일 모델 (§ 2.6 )으로 70.96%의 test-dev와 ∞(표준값 없음)으로 보고되었으며, 앙상블, 30 × 다양한 모델 (§ 2.6 )에서 72.18%의 test-dev와 72.27%의 test-std(최첨단)로 보고되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.