Skip to main content
QUICK REVIEW

[논문 리뷰] Survey on the attention based RNN model and its applications in computer vision

Feng Wang, David M. J. Tax|arXiv (Cornell University)|2016. 01. 25.
Advanced Image and Video Retrieval Techniques참고 문헌 34인용 수 100
한 줄 요약

이 설문은 시퀀스-투-시퀀스 작업을 위한 주의 기반 RNN 모델을 검토하고, 네 가지 주의 메커니즘과 그것들의 컴퓨터 비전 응용을 상세히 다루며, 장점과 향후 방향에 대해 논의한다.

ABSTRACT

The recurrent neural networks (RNN) can be used to solve the sequence to sequence problem, where both the input and the output have sequential structures. Usually there are some implicit relations between the structures. However, it is hard for the common RNN model to fully explore the relations between the sequences. In this survey, we introduce some attention based RNN models which can focus on different parts of the input for each output item, in order to explore and take advantage of the implicit relations between the input and the output items. The different attention mechanisms are described in detail. We then introduce some applications in computer vision which apply the attention based RNN models. The superiority of the attention based RNN model is shown by the experimental results. At last some future research directions are given.

연구 동기 및 목표

  • 주의의 개념과 그것이 시퀀스-투-시퀀스 문제를 위한 RNN에 갖는 관련성을 설명한다.
  • 인코더-디코더 프레임워크를 설명하고 주의가 가변 길이의 입력/출력을 다루는 데 왜 유리한지 설명한다.
  • 네 가지 주의 메커니즘(item-wise/ location-wise, soft/hard)을 상세히 설명하고 엔드-투-엔드 모델에의 통합을 다룬다.
  • 컴퓨터 비전에서의 주의 기반 RNN의 응용과 잠재적 향후 연구 방향에 대해 논의한다.

제안 방법

  • 인코더-디코더 패러다임 내에서 주의 기반 RNN 모델을 정의하고 형식화한다.
  • 네 가지 주의 메커니즘을 제시한다: item-wise soft attention, item-wise hard attention, location-wise hard attention, 그리고 location-wise soft attention.
  • 주의 가중치가 어떻게 계산되는지 설명한다(예: e_jt = f_att(c_t, h_{j-1}) 및 softmax를 통한 alpha_jt) 그리고 중간 코드를 어떻게 형성하는지.
  • 엔드-투-엔드 미분 가능성으로의 학습 또는 hard attention에 대해 강화 학습으로 확장하는 학습에 대해 논의한다.
  • 주의가 더 나은 중간 표현과 해석 가능성을 어떻게 제공하는지 설명한다.

실험 결과

연구 질문

  • RQ1시퀀스-투-시퀀스 작업을 위한 인코더-디코더 RNN의 성능 개선에서 주의의 역할은 무엇인가?
  • RQ2네 가지 주의 메커니즘이 입력 유형, 계산 방식, 미분 가능성 측면에서 어떻게 다른가?
  • RQ3시각 지향 시퀀스 문제에서 주의 기반 RNN이 기존 RNN보다 갖는 이점은 무엇인가?
  • RQ4다양한 컴퓨터 비전 작업과 데이터 모달리티에 주의 메커니즘을 어떻게 적용할 수 있는가?
  • RQ5주의 기반 RNN 모델을 위한 제안된 향후 방향과 과제는 무엇인가?

주요 결과

  • 주의 기반 RNN은 입력 부분에 차등 가중치를 부여하여 암묵적인 입력-출력 관계를 포착한다.
  • 네 가지 주의 메커니즘이 제시된다: item-wise soft, item-wise hard, location-wise soft, 그리고 location-wise hard attention.
  • 하드 어텐션은 관련 부분에 집중함으로써 계산를 줄일 수 있고, 학습은 강화 학습 기법에 의해 촉진된다.
  • 소프트 어텐션은 미분 가능하여 RNN과 어텐션 모듈의 엔드-투-엔드 학습을 가능하게 한다.
  • 본 설문은 조사된 맥락에서 주의 기반 RNN의 우월성을 보이는 실험 결과를 제시한다.
  • 모델은 시퀀스-투-시퀀스 문제를 인코더, 어텐션, 디코더 구성요소로 분해하여 유연한 입력(특징 맵 또는 명시적 아이템 시퀀스)을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.