Skip to main content
QUICK REVIEW

[논문 리뷰] Tree Edit Distance Learning via Adaptive Symbol Embeddings

Benjamin Paaßen|arXiv (Cornell University)|2018. 01. 01.
Immune responses and vaccinations인용 수 17
한 줄 요약

이 논문은 트리 편집 거리에 대한 새로운 메트릭 학습 방법인 임bedding 편집 거리 학습(BEDL)을 제안한다. 이 방법은 트리 노드 레이블의 벡터 임베딩을 학습하여 유클리드 거리 메트릭을 유도함으로써, 일반화된 학습 벡터 양자화(GLVQ)를 프로토타입 트리에서 최적화함으로써 메트릭 성질을 보장하고 해석 가능성을 향상시키며, 생물정보학, 프로그램 분석, 자연어 처리 작업을 포함한 여섯 가지 다양한 벤치마크에서 최신 기준 성능을 달성한다.

ABSTRACT

Metric learning has the aim to improve classification accuracy by learning a distance measure which brings data points from the same class closer together and pushes data points from different classes further apart. Recent research has demonstrated that metric learning approaches can also be applied to trees, such as molecular structures, abstract syntax trees of computer programs, or syntax trees of natural language, by learning the cost function of an edit distance, i.e. the costs of replacing, deleting, or inserting nodes in a tree. However, learning such costs directly may yield an edit distance which violates metric axioms, is challenging to interpret, and may not generalize well. In this contribution, we propose a novel metric learning approach for trees which we call embedding edit distance learning (BEDL) and which learns an edit distance indirectly by embedding the tree nodes as vectors, such that the Euclidean distance between those vectors supports class discrimination. We learn such embeddings by reducing the distance to prototypical trees from the same class and increasing the distance to prototypical trees from different classes. In our experiments, we show that BEDL improves upon the state-of-the-art in metric learning for trees on six benchmark data sets, ranging from computer science over biomedical data to a natural-language processing data set containing over 300,000 nodes.

연구 동기 및 목표

  • 직접적인 편집 비용 학습의 한계, 즉 메트릭 공리 위반과 낮은 일반화 성능를 해결하기 위해.
  • 스칼라 연산 비용을 벡터 임베딩으로 대체하여 학습된 편집 거리의 해석 가능성을 향상시키기 위해.
  • 판별력 있고 이론적으로 탄탄한 트리 편집 거리에 대한 메트릭 학습 프레임워크를 개발하기 위해.
  • 구문 트리, 분자 구조, 프로그램 AST와 같은 구조적 데이터에 대해 기울기 역전파가 가능한 이해 가능한 거리 메트릭을 사용하여 효과적인 분류를 가능하게 하기 위해.
  • 기존 최신 기준 메트릭 학습 방법들보다 정확도와 내구성 측면에서 트리 편집 거리에 대해 슈퍼리어한 성능을 달성하기 위해.

제안 방법

  • 노드 레이블의 벡터 임베딩을 사용하여 트리 편집 거리를 재구성하며, 편집 비용은 임베딩 간 유클리드 거리로부터 유도된다.
  • 클래스의 프로토타입에 데이터 포인트를 더 가까이 오게 하고 다른 클래스의 프로토타입에서 멀어지게 하는 목적 함수로 일반화된 학습 벡터 양자화(GLVQ)를 사용한다.
  • 모든 공최적의 편집 스크립트를 집계하기 위해 전진-역행 알고리즘을 사용하여 단일 최적 경로에 의존하는 것보다 더 높은 내구성을 확보한다.
  • 중위 학습 벡터 양자화(MLVQ)를 통해 프로토타입을 선택함으로써 필요한 학습 튜플 수를 선형 척도로 줄인다.
  • 스토하스틱 경사 하강법을 통해 엔드 투 엔드로 임베딩을 학습하며, 임베딩 공간에서의 클래스 판별력을 최적화한다.
  • 학습된 임베딩에 대한 유클리드 거리 사용을 통해 비용의 비용 성질(음수성 금지, 항등성, 대칭성, 삼각 부등식)을 본질적으로 보장한다.

실험 결과

연구 질문

  • RQ1트리 노드 레이블의 학습된 벡터 임베딩이 직접 비용 학습보다 더 판별력 있고 해석 가능한 편집 거리를 유도할 수 있는가?
  • RQ2단일 경로가 아닌 모든 공최적의 편집 스크립트를 고려함으로써 트리 편집 거리에 대한 메트릭 학습의 내구성과 성능이 향상되는가?
  • RQ3프로토타입에서 GLVQ 기반 최적화가 기존의 편집 거리 메트릭 학습 방법보다 더 나은 일반화 및 분류 정확도를 이끌 수 있는가?
  • RQ4학습된 임베딩의 해석 가능성은 데이터의 기초 구조를 이해하는 데 어느 정도 기여하는가?
  • RQ5Good Edit Similarity Learning(GESL)과 같은 최신 기준 접근법과 비교할 때, 제안된 방법은 다양한 트리 구조 데이터셋에서 정확도와 런타임 측면에서 어떻게 비교되는가?

주요 결과

  • BEDL는 Java 프로그램 AST, 분자 구조, 감성 분석 트리 등 30만 개 이상의 노드를 포함한 여섯 가지 벤치마크 데이터셋에서 최신 기준 분류 정확도를 달성한다.
  • Cystic 데이터셋에서 AUC는 76.93% ± 0.97%에서 79.2% ± 13.6%로 향상되었고, Leukemia에서는 93.8% ± 3.3%에서 94.6% ± 4.5%로 향상되어 이전 방법들을 능가한다.
  • Sentiment 데이터셋에서 BEDL는 검증 세트에서 27.51%의 SVM 분류 오차를 기록했으며, 이는 500개의 검증 포인트만을 사용했음에도 경쟁 가능한 성능이다.
  • 실제 편집 거리 측면에서 GESL를 크게 능가하지만, GESL는 특히 큰 데이터셋에서 기준 트리 편집 거리보다 성능이 떨어지는 경향이 있다.
  • 제거 실험 결과, 공최적의 편집 스크립트와 GLVQ 프로토타입 사용이 MiniPalindrome에서 성능 향상을 이끌었으며, 임베딩 기반 접근법은 실제 편집 거리를 향상시키지만 의사 편집 거리는 향상시키지 못했다.
  • 학습된 임베딩의 시각화 결과 의미 있는 구조가 드러났다: 관련이 없는 기호들은 원점 근처에 위치하고, 'block', 'while', 'modifiers', '파rametrized type'와 같은 판별적 개념들은 명확히 분리되어 있으며, 그들의 기능적 역할을 반영하도록 배치되어 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.