QUICK REVIEW

[논문 리뷰] High Order Stochastic Graphlet Embedding for Graph-Based Pattern Recognition.

Anjan Dutta, Hichem Sahbi|arXiv (Cornell University)|2017. 02. 01.

Graph Theory and Algorithms참고 문헌 39인용 수 18

한 줄 요약

이 논문은 고차수 확률적 그래프릿 임베딩(SGE)을 제안하며, 이는 큰 그래프릿을 확률적으로 샘플링하고 동형인 그래프릿을 해싱하여 국소적 구조와 그 상호작용을 모델링함으로써 그래프를 고차원 벡터 공간에 명시적으로 매핑하는 방법이다. SVM과 조합할 경우, 기준 데이터셋에서 그래프 분류 정확도가 크게 향상된다.

ABSTRACT

Graph-based methods are known to be successful for pattern description and comparison purpose. However, a lot of mathematical tools are unavailable in graph domain, thus restricting the generic graph-based techniques to be applicable within the machine learning framework. A way to tackle this problem is graph embedding into high dimensional space in either an explicit or implicit manner. In this paper, we propose high order stochastic graphlet embedding (SGE) that explicitly embed a graph into a real vector space. Our main contribution includes a new stochastic search procedure that allows one to efficiently parse a given graph and extract or sample unlimitedly high order graphlets. We consider these graphlets with increasing size in order to model local features, as well as, their complex interactions. We also introduce or design graph hash functions with very low probability of collision to hash those sampled graphlets for partitioning them into sets of isomorphic ones and measure their distribution in large graph collections, which results in accurate graph descriptions. When combined with support vector machines, these high order graphlet-based descriptions have positive impact on the performance of graph-based pattern comparison and classification as corroborated through experiments on different standard benchmark databases.

연구 동기 및 목표

그래프 도메인에서 기계 학습 기법을 그래프 기반 패턴 인식에 적용하는 데 걸림돌이 되는 수학적 도구의 부족을 해결한다.
기존의 그래프 임베딩 방법의 한계를 극복하여 그래프의 명시적이고 고차원적인 표현을 가능하게 한다.
크고 임의의 고차수 그래프릿을 대규모 그래프에서 효율적으로 샘플링하는 확률적 절차를 개발한다.
동형인 그래프릿을 그룹화하고 대규모 그래프 컬렉션에서의 분포를 캡처하기 위해 낮은 충돌 확률을 가진 그래프 해시 함수를 설계한다.
고차수 그래프릿을 통해 복잡한 국소적 특징과 그 상호작용을 모델링함으로써 그래프 분류 성능을 향상시킨다.

제안 방법

주어진 그래프에서 크기가 점점 증가하는 고차수 그래프릿(하위그래프)을 효율적으로 샘플링하기 위한 확률적 탐색 절차를 제안한다.
최소한의 충돌 확률을 가진 그래프 해시 함수를 사용하여 동형인 그래프릿을 식별하고 그룹화하여 분포 분석을 수행한다.
다양한 순서에서 동형인 그래프릿의 빈도 분포에 기반하여 그래프의 벡터 표현을 구성한다.
분류를 위해 유연한 서포트 벡터 머신(SVMs)과 결과로 도출된 고차수 그래프릿 특징을 통합한다.
표준 기계 학습 파ip라인을 그래프 구조 데이터에 적용할 수 있도록 명시적 벡터 공간 임베딩을 활용한다.
샘플링 과정을 제어하고 효과적인 해싱을 통해 정보 손실를 최소화함으로써 확장성과 정확성을 확보한다.

실험 결과

연구 질문

RQ1고차수 그래프릿의 확률적 샘플링이 더 표현력 있고 확장 가능한 그래프 임베딩 방법을 가능하게 할 수 있는가?
RQ2낮은 충돌 확률을 가진 그래프 해시 함수가 동형인 그래프릿을 분포 표현에 효과적으로 그룹화할 수 있는가?
RQ3낮은 차수 또는 임베딩되지 않은 방법에 비해 고차수 그래프릿 특징이 그래프 분류 성능을 얼마나 향상시키는가?
RQ4제안된 방법이 패턴 인식 분야의 다양한 그래프 컬렉션과 기준 데이터셋에 일반화 가능한가?
RQ5고차수 그래프릿을 통해 포착된 국소적 그래프 구조 간의 복잡한 상호작용이 분류 성능 향상에 기여하는 정도는 어느 정도인가?

주요 결과

제안된 고차수 확률적 그래프릿 임베딩(SGE)은 기준 방법에 비해 그래프 분류 작업에서 뛰어난 성능을 달성한다.
확률적 샘플링을 사용함으로써 계산 비용이 과도하게 증가하지 않도록 고차수 그래프릿을 추출할 수 있다.
낮은 충돌 확률을 가진 그래프 해시 함수는 동형인 그래프릿을 효과적으로 그룹화하여 구조 정보를 유지하고 정확한 분포 모델링을 가능하게 한다.
SVM과 조합했을 때, 이 방법은 그래프 기반 패턴 비교 및 분류에 긍정적인 영향을 미친다.
표준 기준 데이터베이스에서의 실험을 통해 SGE의 효과성과 강인함이 다양한 그래프 유형에 걸쳐 확인되었다.
고차수 그래프릿은 복잡한 국소적 상호작용을 포착하여 저차수 대비 더 구분력 있는 그래프 표현을 이끌어낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.