QUICK REVIEW

[논문 리뷰] Valid Two-Sample Graph Testing via Optimal Transport Procrustes and Multiscale Graph Correlation with Applications in Connectomics

Jaewon Chung, Bijan Varjavand|arXiv (Cornell University)|2019. 11. 06.

Functional Brain Connectivity Studies참고 문헌 25인용 수 5

한 줄 요약

이 논문은 잠재 위치 정렬을 위해 최적 운반 Procrustes(OTP)를 사용하고, 검정을 위해 다중 척도 그래프 상관계수(MGC)를 사용하는 강건한 이중 표본 그래프 검정 프레임워크를 제안한다. 이는 기존 방법에 비해 통계적 타당성과 검정력이 크게 향상된다. 도라마 플라바의 미생물체 뇌 회로망에 적용한 결과, 좌·우 대뇌반구 간 유의미한 차이가 없음을 보였으며, OTP는 중앙값 플립 정렬의 부적합성을 해결했고, MGC는 DCorr보다 검정력이 뛰어나다.

ABSTRACT

Testing whether two graphs come from the same distribution is of interest in many real world scenarios, including brain network analysis. Under the random dot product graph model, the nonparametric hypothesis testing frame-work consists of embedding the graphs using the adjacency spectral embedding (ASE), followed by aligning the embeddings using the median flip heuristic, and finally applying the nonparametric maximum mean discrepancy(MMD) test to obtain a p-value. Using synthetic data generated from Drosophila brain networks, we show that the median flip heuristic results in an invalid test, and demonstrate that optimal transport Procrustes (OTP) for alignment resolves the invalidity. We further demonstrate that substituting the MMD test with multiscale graph correlation(MGC) test leads to a more powerful test both in synthetic and in simulated data. Lastly, we apply this powerful test to the right and left hemispheres of the larval Drosophila mushroom body brain networks, and conclude that there is not sufficient evidence to reject the null hypothesis that the two hemispheres are equally distributed.

연구 동기 및 목표

랜덤 도트 곱 그래프 모델에서 잠재 위치 정렬의 비동일성으로 인한 가설 검정의 부적합성 문제를 해결한다.
정렬을 위해 중앙값 플립을 최적 운반 Procrustes(OTP)로 대체하여 이중 표본 그래프 검정의 통계적 검정력과 타당성을 향상시킨다.
검정 통계량으로 최대 평균 차이(MMD)를 다중 척도 그래프 상관계수(MGC)로 대체하여 검정 성능을 향상시킨다.
제안된 프레임워크를 시뮬레이션 데이터와 도라마 플라바 유충의 미생물체 뇌 회로망 실재 데이터에 대해 검증한다.

제안 방법

이웃 행렬에서 잠재 위치를 추정하기 위해 인접 스펙트럼 임베딩(ASE)을 사용한다.
추정된 잠재 위치를 정렬하기 위해 최적 운반 Procrustes(OTP)를 적용하여 직교 비동일성 문제를 해결한다.
기존의 MMD 검정을 다중 척도 그래프 상관계수(MGC)로 대체하여, 의존성 탐지에 적합한 최적 척도를 자동으로 선택한다.
정렬된 잠재 위치를 대상으로 MGC를 사용하여 이중 표본 검정을 수행하여 기저 분포가 동일한지 평가한다.
독립성 검정(MGC, DCorr 등)을 이중 표본 검정에 적합하기 위해 k-표본 변환을 사용한다.
다양한 그래프 크기와 효과 크기에서 유형 I 오류 통제 및 통계적 검정력을 평가한다.

실험 결과

연구 질문

RQ1RDPG 모델 하에서 잠재 위치 정렬을 위한 중앙값 플립 히우리즘이 타당한 이중 표본 그래프 검정을 보장하는가?
RQ2최적 운반 Procrustes(OTP)는 중앙값 플립으로 인한 부적합성을 해결할 수 있는가?
RQ3다중 척도 그래프 상관계수(MGC)는 잠재 분포 간의 차이를 탐지하는 데 거리 상관계수(DCorr)나 MMD보다 더 높은 검정력을 보이는가?
RQ4도라마 플라바 유충의 미생물체 뇌 회로망에서 좌·우 대뇌반구의 기저 연결 구조가 통계적으로 동일한가?

주요 결과

중앙값 플립 히우리즘은 잘못된 검정을 초래하며, 유의수준 α = 0.05를 초과하는 유형 I 오류를 보이며, 특히 진정한 차이가 없을 경우 그래프 크가 증가함에 따라 증가한다.
최적 운반 Procrustes(OTP)는 중앙값 플립의 부적합성을 성공적으로 해결하여, 모든 테스트된 그래프 크기에서 정확한 유형 I 오류 통제를 유지한다.
MGC는 시뮬레이션 데이터와 실재 데이터 모두에서 DCorr 및 MMD보다 유의미하게 높은 통계적 검정력을 보이며, 특히 중간에서 큰 효과 크기에서 두드러진다.
도라마 플라바 유충의 미생물체 뇌 회로망에 적용한 결과, MGC+OTP는 ˆd=1일 때 p-value 0.986에서 ˆd=5일 때 p-value 0.952까지의 결과를 도출하여 대칭성 분포에 대한 귀무가설을 기각하지 못했다.
중앙값 플립은 고차원 잠재 공간(예: ˆd=3)에서 정렬 오류를 유발하여, p-value가 0.001에 이르는 거짓 양성 결과를 초래하지만, OTP는 정확한 정렬과 타당한 추론을 유지한다.
OTP 정렬 후 임베딩을 시각화한 결과, 모든 차원에서 일관된 분포 유사성이 관찰되었고, 반면 중앙값 플립은 특히 좌측 대뇌반구에서 차원 3에서 정렬 오류를 유발한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.