Skip to main content
QUICK REVIEW

[논문 리뷰] Homonym Identification using BERT - Using a Clustering Approach

Rohan Saha|arXiv (Cornell University)|2020. 01. 01.
Natural Language Processing Techniques참고 문헌 6인용 수 3
한 줄 요약

이 연구는 BERT의 문맥적 임bedding이 군집화를 통해 동음이의어를 식별할 수 있는지 조사한다. SemCor 레이블이 부여된 데이터를 바탕으로 계층적 군집화, DBSCAN, Mean-Shift를 사용했음에도 불구하고, 겹치는, 균일하게 분포된 임베딩으로 인해 군집화 성능이 열악한 것으로 나타났으며, 이는 강력한 문맥적 표현을 가진다 해도 비지도 군집화가 동음이의어의 의미를 구분하지 못함을 시사한다.

ABSTRACT

Homonym identification is important for WSD that require coarse-grained partitions of senses. The goal of this project is to determine whether contextual information is sufficient for identifying a homonymous word. To capture the context, BERT embeddings are used as opposed to Word2Vec, which conflates senses into one vector. SemCor is leveraged to retrieve the embeddings. Various clustering algorithms are applied to the embeddings. Finally, the embeddings are visualized in a lower-dimensional space to understand the feasibility of the clustering process.

연구 동기 및 목표

  • BERT의 문맥적 임베딩이 동음이의어 식별에 충분한지 판단하기 위해.
  • 군집화 알고리즘이 고차원 공간에서 동음이의어의 서로 다른 의미를 분리할 수 있는지 평가하기 위해.
  • BERT 임베딩을 사용한 비지도 군집화로 거시적 수준의 의미 분할을 구현할 수 있는지 평가하기 위해.
  • SemCor-레이블이 부여된 데이터에서 다양한 군집화 및 차원 축소 기법을 비교하기 위해.

제안 방법

  • SemCor 문장 내 타겟 단어에 대해 BERT를 사용해 문맥적 단어 임베딩을 생성함.
  • 각 단어 토큰을 WordNet 의미 키로 매핑하여 참값으로서의 동음이의어 그룹을 설정함.
  • BERT 임베딩에 대해 세 가지 군집화 알고리즘을 적용: Agglomerative Clustering, DBSCAN, Mean-Shift.
  • T-SNE, PCA, MDS, Isomap, LLE와 같은 차원 축소 기법을 사용해 군집을 시각화함.
  • 군집 품질과 의미 그룹 간 분리 정도 평가를 위해 T-SNE와 MDS를 사용해 결과를 시각화함.
  • 예측된 군집 레이블을 진짜 동음이의어 그룹 레이블과 비교하여 군집화 성능을 평가함.

실험 결과

연구 질문

  • RQ1BERT 임베딩이 비지도 군집화에 적합한 방식으로 서로 다른 동음이의어 의미를 효과적으로 표현할 수 있는가?
  • RQ2군집화 알고리즘이 동음이의어의 여러 의미를 임베딩 공간에서 분리된 군집으로 성공적으로 분리할 수 있는가?
  • RQ3다양한 차원 축소 기법이 동음이의어 임베딩의 시각적 해석 가능성과 군집화 성능에 어떤 영향을 미치는가?
  • RQ4군집화 성능은 다양한 동음이의어에 일반화되는가, 아니면 단어별로 상당한 차이를 보이는가?

주요 결과

  • 군집화 알고리즘이 동음이의어 의미에 대해 정확한 레이블을 할당하지 못했으며, 정확도는 우연 수준 이하였다.
  • T-SNE와 MDS를 사용한 시각화 결과, 특히 'light'와 같은 단어의 경우 다른 동음이의어 그룹 간에 임베딩이 상당히 겹쳐져 있음을 확인함.
  • PCA는 선형적 성격으로 인해 뭉쳐지고 구분이 어려운 군집을 생성했으며, 데이터의 비선형적 구조를 포착하지 못함.
  • 동일한 하이퍼파라미터 설정이 다양한 동음이의어 간에 일반화되지 않아 군집화 접근법의 낮은 내구성을 시사함.
  • 의미적으로 관련된 다의어어의 임베딩이 고차원 공간에서 균일하게 분포되어 있어 군집화가 어려움.
  • BERT의 강력한 문맥적 표현에도 불구하고, 비지도 군집화를 통해 동음이의어 의미를 신뢰성 있게 구분하지 못함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.