QUICK REVIEW

[논문 리뷰] FigureQA: An Annotated Figure Dataset for Visual Reasoning

Samira Ebrahimi Kahou, Vincent Michalski|arXiv (Cornell University)|2017. 10. 19.

Multimodal Machine Learning Applications참고 문헌 28인용 수 122

한 줄 요약

FigureQA는 100k figure images에 기반한 100만 개가 넘는 QA 쌍의 합성 시각 추론 코퍼스이며 보조 작업을 위한 바운딩 박스 및 수치 데이터를 포함합니다. 베이스라인은 관계 추론이 가장 강력한 성능을 낳지만 여전히 인간 수준 아래입니다.

ABSTRACT

We introduce FigureQA, a visual reasoning corpus of over one million question-answer pairs grounded in over 100,000 images. The images are synthetic, scientific-style figures from five classes: line plots, dot-line plots, vertical and horizontal bar graphs, and pie charts. We formulate our reasoning task by generating questions from 15 templates; questions concern various relationships between plot elements and examine characteristics like the maximum, the minimum, area-under-the-curve, smoothness, and intersection. To resolve, such questions often require reference to multiple plot elements and synthesis of information distributed spatially throughout a figure. To facilitate the training of machine learning systems, the corpus also includes side data that can be used to formulate auxiliary objectives. In particular, we provide the numerical data used to generate each figure as well as bounding-box annotations for all plot elements. We study the proposed visual reasoning task by training several models, including the recently proposed Relation Network as a strong baseline. Preliminary results indicate that the task poses a significant machine learning challenge. We envision FigureQA as a first step towards developing models that can intuitively recognize patterns from visual representations of data.

연구 동기 및 목표

플롯된 데이터의 추론을 연구하기 위해 figure 기반 시각 질문의 대규모 주석 데이터셋을 생성한다.
모든 도형 요소에 대한 정답 수치 데이터와 바운딩 박스를 제공하여 보조 감독을 가능하게 한다.
관계 추론을 포함한 기본 신경망 모델을 figure 기반 질문에 대해 평가한다.
합성 생성을 통해 템플릿, 데이터 유형, 작업 복잡성을 확장하여 커리큘럼식 확장을 가능하게 한다.

제안 방법

샘플링된 수치 데이터로부터 다섯 가지 유형(수직/수평 막대, 선, 점-선, 파이)의 합성 도형을 생성한다.
극값, 면적-아래-곡선, 스무스함, 요소 간 관계를 다루는 15개의 이진 질문 템플릿을 생성한다.
템플릿과 도형 간의 편향을 피하기 위해 예/아니오 응답을 균형 있게 보장한다.
각 도형에 모든 도형 요소에 대한 바운딩 박스를 주석하고 기본 데이터 및 색상 메타데이터를 제공한다.
도형 렌더링에 Bokeh를 사용하고 바운딩 박스를 출력하며 주석 내보내기를 위한 백엔드를 수정한다.
네 가지 베이스라인을 평가한다: 텍스트 전용 LSTM, 시각적 특징을 학습하는 CNN+LSTM, VGG-16 피처를 사용하는 CNN+LSTM, 그리고 관계 추론을 위한 Relation Network(RN).

실험 결과

연구 질문

RQ1신경망 모델이 이미지와 질문 입력만으로 합성 도형 데이터에 대해 정확한 시각 추론을 수행할 수 있는가?
RQ2RN이 도형 기반 질문에서 표준 CNN+LSTM 베이스라인보다 성능이 우수한가?
RQ3모델이 합성 도형 읽기 작업에서 인간 성능에 얼마나 근접할 수 있는가?
RQ4색상 교대 체계가 모델 성능 및 편향 저항에 미치는 영향은 무엇인가?

주요 결과

모델	검증 정확도 (%)	테스트 정확도 (%)
텍스트 전용	50.01	50.01
CNN+LSTM	56.16	56.00
CNN+LSTM on VGG-16 features	52.31	52.47
RN	72.54	72.40

RN이 FigureQA 테스트 세트에서 CNN+LSTM 베이스라인보다 크게 우수한 성능을 보인다.
RN은 색상 교대에서 검증 72.54%, 테스트 72.40%의 정확도, 비교적 색상에서 76.52%를 달성한다.
같은 하위집합에서 인간 주석자는 91.21%를 달성하여 인간 수준의 추론까지 남은 간격을 강조한다.
텍스트 전용 및 CNN+LSTM 베이스라인은 RN에 뒤처져 이 작업에 대해 관계 추론의 중요성을 시사한다.
데이터세트에는 학습 도형 100k개(1.3M 질문)과 검증/테스트 도형 20k개(≈250k 질문 each)가 포함된다.
코퍼스는 보조 감독 및 분석을 지원하기 위한 기본 수치 데이터와 바운딩 박스를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.