[논문 리뷰] MAttNet: Modular Attention Network for Referring Expression Comprehension
MAttNet은 주체, 위치, 관계 모듈로 지칭 표현을 분해하고 언어 가이드 어텐션과 시각 어텐션을 사용하여 외부 파서 없이 최첨단 경계 박스 및 픽셀 수준 이해를 달성합니다.
In this paper, we address referring expression comprehension: localizing an image region described by a natural language expression. While most recent work treats expressions as a single unit, we propose to decompose them into three modular components related to subject appearance, location, and relationship to other objects. This allows us to flexibly adapt to expressions containing different types of information in an end-to-end framework. In our model, which we call the Modular Attention Network (MAttNet), two types of attention are utilized: language-based attention that learns the module weights as well as the word/phrase attention that each module should focus on; and visual attention that allows the subject and relationship modules to focus on relevant image components. Module weights combine scores from all three modules dynamically to output an overall score. Experiments show that MAttNet outperforms previous state-of-art methods by a large margin on both bounding-box-level and pixel-level comprehension tasks. Demo and code are provided.
연구 동기 및 목표
- 표현의 분산을 다루는 모듈식 네트워크로 지칭 표현 이해를 다룬다.
- 외부 파서에 대한 의존성을 제거하고 표현을 모듈로 부드럽게 파싱하도록 학습한다.
- 모듈별 시각 어텐션과 적응 결합을 통해 고정밀 localization 및 분할 정확도를 달성한다.
제안 방법
- 주체, 위치, 관계 모듈을 위한 세 가지 구문 임베딩으로 표현을 분해한다.
- 외부 파서 없이 모듈 가중치와 단어/구 어텐션을 학습하는 언어 어텐션 네트워크를 사용한다.
- 세 가지 시각 모듈을 서로 다른 어텐션 메커니즘으로 활용한다(주체에 대해 상자 내부 소프트 어텐션; 관계에 대해 상자 외부 하드 어텐션).
- 모듈별 점수 S(o|q)를 계산하고 학습된 모듈 가중치 w_subj, w_loc, w_rel로 합산하여 S(o|r)을 얻는다.
- 양성/음성 쌍에 대한 랭킹 손실과 속성-인식 주체 분기를 통해 end-to-end 학습한다.
실험 결과
연구 질문
- RQ1외부 파서 없이 모듈식, 엔드투엔드 모델이 지칭 표현 이해를 향상시킬 수 있는가?
- RQ2주체, 위치, 관계 정보가 로컬라이제이션 및 분할 성능에 어떻게 기여하는가?
- RQ3학습된 언어 어텐션이 정보를 적절한 시각 모듈에 효과적으로 할당하는가?
- RQ4상자 내부 대 상자 외부 어텐션이 이해 정확도에 어떤 영향을 미치는가?
주요 결과
| Model | Backbone Net | Split | Pr@0.5 | Pr@0.6 | Pr@0.7 | Pr@0.8 | Pr@0.9 | IoU |
|---|---|---|---|---|---|---|---|---|
| Matching:subj+loc | vgg16 | val | 63.15 | 63.53 | 59.87 | - | - | 56.51 |
| MAttN:subj+loc | vgg16 | val | 63.07 | 65.04 | 61.77 | - | - | 56.51 |
| MAttN:subj+loc(+dif) | vgg16 | val | 63.07 | 65.77 | 64.55 | - | - | 56.51 |
| MAttN:subj+loc(+dif)+rel | vgg16 | val | 65.84 | 66.59 | 65.08 | - | - | 66.? (IoU shown in table) |
| MAttN:subj(+attr)+loc(+dif)+rel | vgg16 | val | 68.34 | 69.93 | 65.90 | - | - | 66.17 |
| MAttN:subj(+attr+attn)+loc(+dif)+rel | vgg16 | val | 71.01 | 75.13 | 66.17 | - | - | 78.12 |
| parser+MAttN:subj(+attr+attn)+loc(+dif)+rel | vgg16 | val | 66.08 | 68.30 | 62.94 | - | - | 73.72 |
| MAttNet:subj+loc | res101-frcn | val | 72.72 | 76.17 | 68.18 | - | - | 63.74 |
| MAttNet:subj+loc(+dif)+rel | res101-frcn | val | 73.25 | 76.77 | 68.44 | - | - | 64.01 |
| MAttNet:subj(+attr)+loc(+dif)+rel | res101-frcn | val | 74.51 | 77.81 | 68.39 | - | - | 65.19 |
| MAttNet:subj(+attr+attn)+loc(+dif)+rel | res101-frcn | val | 76.40 | 80.43 | 69.28 | - | - | 67.01 |
- MAttNet은 경계 박스 로컬라이제이션과 픽셀 수준 분할에서 이전의 최첨단 방법을 큰 차이로 능가한다.
- 소프트 언어 파싱과 적응 모듈 가중치를 갖춘 엔드-투-엔드 학습은 단일 모델 기준선 대비 상당한 이득을 가져온다.
- 속성 인식 기반의 구절 가이드 내부 주체 모듈은 외모 중심 표현에서 정확도를 향상시킨다.
- 상자 외부 어텐션과 MIL 스타일의 최대 풀링을 갖춘 관계 모듈은 객체 관계 처리 능력을 향상시킨다.
- 탐지된 제안(Faster R-CNN / Mask R-CNN)을 사용한 완전 자동 인식도 데이터셋 전반에서 강한 이득을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.