[논문 리뷰] HAKE: Human Activity Knowledge Engine
HAKE는 인간 몸 부위 상태를 인스턴스 활동과 연결하는 대규모 부분-상태 주석 지식 기반을 구축하여, 특히 소샷 설정에서 활동 인식을 개선하는 2단계 계층적 패러다임을 가능하게 한다.
Human activity understanding is crucial for building automatic intelligent system. With the help of deep learning, activity understanding has made huge progress recently. But some challenges such as imbalanced data distribution, action ambiguity, complex visual patterns still remain. To address these and promote the activity understanding, we build a large-scale Human Activity Knowledge Engine (HAKE) based on the human body part states. Upon existing activity datasets, we annotate the part states of all the active persons in all images, thus establish the relationship between instance activity and body part states. Furthermore, we propose a HAKE based part state recognition model with a knowledge extractor named Activity2Vec and a corresponding part state based reasoning network. With HAKE, our method can alleviate the learning difficulty brought by the long-tail data distribution, and bring in interpretability. Now our HAKE has more than 7 M+ part state annotations and is still under construction. We first validate our approach on a part of HAKE in this preliminary paper, where we show 7.2 mAP performance improvement on Human-Object Interaction recognition, and 12.38 mAP improvement on the one-shot subsets.
연구 동기 및 목표
- 인스턴스 활동과 신체 부위 상태를 연결하여 활동 이해를 개선한다.
- 동작을 부위 상태로 분해하여 롱테일 데이터 분포를 완화한다.
- Activity2Vec를 통해 해석 가능하고 언어적으로 풍부한 표현을 제공한다.
- 특히 소샷 설정에서 HOI 벤치마크의 개선을 입증한다.
- HAKE를 확장하기 위해 커뮤니티 협력을 초대하고 더 넓은 채택을 촉진한다.
제안 방법
- 포즈 안내 부분 구분을 사용하여 이미지 전반의 154개 인스턴스 활동에 대한 부분 상태를 주석화한다.
- NPMI 분석을 통해 인간 전문가 판단을 조정하여 대략 92개의 부분 상태 후보를 정의한다.
- ROI-pooled 특징과 부분 수준 상호작용 사전 정보를 사용하여 부분 상태를 인식하는 Part State Classification Network (PSC)를 개발한다.
- 시각적 부분 상태 확률을 BERT 기반 언어 임베딩과 융합하고 삼중항 손실을 이용해 시각적 공간과 언어 공간을 정렬하는 Activity2Vec를 생성한다.
- 계층적 그래프에서 부분 상태 임베딩으로 인스턴스 활동을 추론하기 위한 Part States Reasoning Network (PSR)을 제안한다.
- 부분 기반 분해의 이점을 설명하기 위해 MNIST에서 파생된 간소화된 비유를 시연한다.
실험 결과
연구 질문
- RQ1대규모 활동 인식에서 동작을 신체 부위 상태로 분해하는 것이 롱테일 및 데이터 불균형 문제를 완화할 수 있는가?
- RQ2부분-상태 인식에 이은 활동 추론이라는 계층적 이중 단계 패러다임이 HOI 및 소샷 인식 성능을 개선하는가?
- RQ3시각적 부분 상태 정보와 언어 임베딩(Activity2Vec)을 결합하면 해석 가능하고 효과적인 활동 표현을 더 얻을 수 있는가?
- RQ4부분-상태 기반 추론이 HICO/HICO-DET 및 AVA와 같은 데이터셋에서 복합적 활동으로 일반화되는 정도는 어떠한가?
- RQ5HAKE 주석을 확장하여 VQA, 동작 검색, 비디오 이해와 같은 더 넓은 작업을 지원할 수 있는가?
주요 결과
- HAKE는 HOI 인식 벤치마크에서 상당한 개선을 달성하여, 특정 설정에서 HICO에 대해 기존 방법 대비 7.2 mAP 증가를 달성했다.
- 실제 정답 부분 상태(HAKE-GT)를 사용하는 경우 HICO에서 최대 62.5 mAP를 달성하여 접근 방식의 상한 잠재력이 강력하다는 것을 보여준다.
- 소샷 HOI 하위집합에서 HAKE는 성능을 크게 향상시키며 강력한 베이스라인 대비 약 11–12 mAP의 개선을 보인다.
- 부분 상태 추론 및 Activity2Vec 표현은 데이터가 희소할 때 특히 더 높은 해석 가능성과 경쟁력 있는 성능을 제공한다.
- HAKE는 104k+ 이미지에 걸쳐 700만 개가 넘는 몸 부위 상태 인스턴스를 주석화하여 자원의 규모와 다양한 활동 이해 작업에 대한 잠재력을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.