QUICK REVIEW

[논문 리뷰] Revisiting Semi-Supervised Learning with Graph Embeddings

Zhilin Yang, William W. Cohen|arXiv (Cornell University)|2016. 03. 29.

Topic Modeling참고 문헌 17인용 수 284

한 줄 요약

Planetoid 프레임워크는 그래프 임베딩과 라벨 예측기를 전이적(transductive) 및 귀납적(inductive) 변형에서 함께 학습하여 텍스트 분류, 원거리 감독, 엔터티 분류 작업 전반에서 준지도 학습을 향상시킵니다.

ABSTRACT

We present a semi-supervised learning framework based on graph embeddings. Given a graph between instances, we train an embedding for each instance to jointly predict the class label and the neighborhood context in the graph. We develop both transductive and inductive variants of our method. In the transductive variant of our method, the class labels are determined by both the learned embeddings and input feature vectors, while in the inductive variant, the embeddings are defined as a parametric function of the feature vectors, so predictions can be made on instances not seen during training. On a large and diverse set of benchmark tasks, including text classification, distantly supervised entity extraction, and entity classification, we show improved performance over many of the existing models.

연구 동기 및 목표

그래프 구조를 통해 라벨이 없는 데이터를 활용하여 예측 정확도를 향상시키는 것.
그래프의 분포 정보를 활용하기 위해 노드 임베딩과 라벨 예측기를 함께 학습한다.
관찰된 인스턴스와 보이지 않는 인스턴스를 처리하기 위해 전이적(transductive) 및 귀납적(inductive) 변형을 모두 개발한다.
다양한 도메인에서의 효과를 입증한다: 텍스트 분류, 멀리 감독된 추출, 엔터티 분류.

제안 방법

표준 분류기 특징과 함께 학습되는 각 인스턴스에 대한 임베딩 e_i를 가진 신경망을 정의한다.
손실을 L_s + lambda L_u로 공식화한다. 여기서 L_s는 감독된 라벨 예측이고 L_u는 그래프 컨텍스트를 예측한다.
그래프 워크와 레이블 기반 컨텍스트의 혼합을 사용하여 맥락 분포 p(i, c, gamma)로부터 (i, c, gamma) 쌍을 샘플하고 음수 샘플링을 수행한다.
시그모이드 기반 이진 분류를 사용한 컨텍스트 예측을 위한 Skipgram 유사 목적 함수를 사용한다.
전이적 변형은 최종 소프트맥스 예측을 위해 x에서 유도된 표현과 임베딩에서 유도된 표현을 연결하고; 임베딩은 함께 학습된다.
귀납적 변형은 e를 입력 특징 x의 매개변수 함수로 정의하여 보이지 않는 인스턴스에 대한 예측을 가능하게 한다; 학습은 매개변수 theta만 업데이트하며 임베딩은 x에서 도출된다.
학습은 L_s와 L_u의 교대 최적화를 통한 확률적 경사 하강으로 진행되며 L_u에 대한 예비 학습 단계를 포함한다.

실험 결과

연구 질문

RQ1임베딩과 라벨 예측기의 공동 학습이 그래프 라플라스 규칙화보다 준지도 학습을 향상시키는가?
RQ2전이적 및 귀납적 변형이 정확도와 일반화 측면에서 어떻게 비교되는가?
RQ3Planetoid가 텍스트 분류, 멀리 감독된 엔터티 추출 및 엔터티 분류에서 어떻게 성능을 보이는가?
RQ4랜덤 워크와 레이블 기반 컨텍스트를 통한 그래프 기반 컨텍스트 샘플링이 성능에 미치는 영향은 무엇인가?

주요 결과

귀납적 Planetoid-I가 두 번째로 좋은 귀납 방법보다 최대 18.7 pp 더 우수하고 평균적으로는 7.8 pp 더 우수하다.
Planetoid의 귀납적 및 전이적 변형 중 최상이 다른 방법들보다 최대 8.5 pp, 평균 4.1 pp 우수하다.
텍스트 분류(Citeseer, Cora, Pubmed)에서 Planetoid-I가 종종 최상의 귀납적 결과를 달성하고, Planetoid-T가 Cora와 Pubmed에서 최상의 전이적 결과를 달성하며, Planetoid-G가 GraphEmb를 능가한다.
멀리 감독된 엔터티 추출(DIEL)에서 Planetoid-I 및 Planetoid-T가 recall@k 전반에서 경쟁적 기준선보다 크게 앞서며, Planetoid 변형들이 여러 실행에서 최상의 결과를 달성한다.
NELL 엔터티 분류에서 Planetoid-I는 다양한 라벨링 비율에서 가장 강력한 귀납적 기준선보다 크게 우수하며, 그래프 구조가 매우 유익할 때 GraphEmb 기반 변형들이 높은 이득을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.