Skip to main content
QUICK REVIEW

[논문 리뷰] Visual Affordance and Function Understanding: A Survey

Mohammed Hassanin, Salman Khan|arXiv (Cornell University)|2018. 07. 18.
Anomaly Detection Techniques and Applications참고 문헌 161인용 수 43
한 줄 요약

컴퓨터 비전에서의 시각적 어포던스와 기능 이해에 대한 포괄적 조사로, 탐지, 분류, 세분화, 추론, 데이터셋, 도전과제 및 향후 방향을 다룬다.

ABSTRACT

Nowadays, robots are dominating the manufacturing, entertainment and healthcare industries. Robot vision aims to equip robots with the ability to discover information, understand it and interact with the environment. These capabilities require an agent to effectively understand object affordances and functionalities in complex visual domains. In this literature survey, we first focus on Visual affordances and summarize the state of the art as well as open problems and research gaps. Specifically, we discuss sub-problems such as affordance detection, categorization, segmentation and high-level reasoning. Furthermore, we cover functional scene understanding and the prevalent functional descriptors used in the literature. The survey also provides necessary background to the problem, sheds light on its significance and highlights the existing challenges for affordance and functionality learning.

연구 동기 및 목표

  • 시각적 어포던스와 기능 이해를 정의하고 로봇 비전과 장면 이해에서의 중요성을 제시한다.
  • 어포던스 탐지, 분류, 세분화, 추론 및 어포던스 기반 활동 이해에 이르는 최첨단 방법을 요약한다.
  • 향후 시각적 어포던스 연구를 이끄는 데이터셋, 도전과제 및 연구 격차를 논의한다.
  • 어포던스 신호가 객체 인식, 장면 해석 및 인간-로봇 상호 작용을 어떻게 향상시키는지 강조한다.

제안 방법

  • 2014–2017년의 시각적 어포던스 및 기능 이해에 관한 문헌을 검토하고 합성한다.
  • 방법들을 하위 문제로 분류한다: 어포던스 탐지, 분류, 시맨틱 라벨링, 그리고 추론.
  • 전통적 디스크립터와 딥 러닝 아키텍처를 포함한 특징 공학 및 특징 학습 접근법을 논의한다.
  • 강건한 어포던스 학습을 위한 도전과제와 다중 소스 특징 융합 고려사항을 제시한다.

실험 결과

연구 질문

  • RQ1시각적 어포던스 학습 및 기능 이해에서 핵심 과제와 하위 문제는 무엇인가?
  • RQ2어포던스를 탐지, 분류, 분할 및 추론하기 위해 어떤 데이터셋, 방법, 특징들이 사용되어 왔는가?
  • RQ3시각적 어포던스 및 기능 이해에서 주요 도전과제와 개방된 연구 격차는 무엇인가?
  • RQ4어포던스가 활동 인식 및 사회적 이해와 같은 상위 수준 작업에 어떻게 정보를 제공할 수 있는가?

주요 결과

  • 어포던스 학습은 객체, 행동, 효과를 통합하여 전통적 탐지를 넘어서는 더 풍부한 장면 이해를 가능하게 한다.
  • 딥 러닝 접근법은 어포던스 탐지와 세분화에 적용되었으며, 종종 다중 라벨 출력을 갖는 객체 탐지로 다루어진다.
  • 조명, 가림, 시점, 규모, 변형 및 다중 라벨/다중 객체 설정(SOML 및 MOML)을 포함해 여러 도전과제가 지속되고 있다.
  • 일부 연구는 객체와 어포던스를 동시에 탐지하기 위해 엔드-투-엔드 아키텍처를 활용하여 학습 효율성과 성능을 향상시킨다.
  • 본 조사는 어포던스 학습을 행동 예측, 활동 인식 및 사회적으로 인식된 장면 이해에 중요한 역할로 위치시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.