Skip to main content
QUICK REVIEW

[논문 리뷰] Fuzzy paraphrases in learning word representations with a corpus and a lexicon.

Yuanzhi Ke, Masafumi Hagiwara|arXiv (Cornell University)|2016. 11. 02.
Natural Language Processing Techniques인용 수 1
한 줄 요약

이 논문은 어휘 사전에서 선택적으로 흐린 대체어를 통합함으로써 단어 표현을 향상시키는 새로운 방법을 제안한다. 훈련 중에 신뢰도 점수를 사용해 신뢰할 수 없는 대체어를 동적으로 제거한다. 이 방법은 다의어 관련 노이즈를 줄이며, 이전 방법들을 능가하며, 다의어 모델링이 필요 없는 단일 벡터를 유지한다.

ABSTRACT

A synonym of a polysemous word is usually only the paraphrase of one sense among many. When lexicons are used to improve vector-space word representations, such paraphrases are unreliable and bring noise to the vector-space. The prior works use a coefficient to adjust the overall learning of the lexicons. They regard the paraphrases equally. In this paper, we propose a novel approach that regards the paraphrases diversely to alleviate the adverse effects of polysemy. We annotate each paraphrase with a degree of reliability. The paraphrases are randomly eliminated according to the degrees when our model learns word representations. In this way, our approach drops the unreliable paraphrases, keeping more reliable paraphrases at the same time. The experimental results show that the proposed method improves the word vectors. Our approach is an attempt to address the polysemy problem keeping one vector per word. It makes the approach easier to use than the conventional methods that estimate multiple vectors for a word. Our approach also outperforms the prior works in the experiments.

연구 동기 및 목표

  • 동일어가 종종 특정 의미에 따라 다르게 작용하여 균일하게 적용될 경우 노이즈를 유발하므로, 다의어 문제를 다루기 위한 단어 표현 학습의 과제를 해결하기 위해.
  • 대체어 관계에 대해 신뢰도 수준을 할당하여 어휘 기반 단어 벡터 학습의 신뢰성을 향상시키기 위해.
  • 모호하거나 잘못된 대체어의 악영향을 줄이면서도 단일 벡터를 유지하는 방법을 개발하기 위해.
  • 모든 대체어를 동일하게 취급하거나 복잡한 다중벡터 모델링을 사용하는 기존 접근 방식을 능가하기 위해.

제안 방법

  • 어휘 사전 내 각 대체어는 특정 단어 의미에 대한 의미 정확도를 반영하는 신뢰도 점수로 표기된다.
  • 모델 훈련 중에 대체어는 그 신뢰도 점수 비례 확률로 무작위로 제거되며, 더 신뢰할 수 있는 관계가 유지되도록 한다.
  • 신뢰도가 낮은 대체어 신호를 가중치를 줄여주는 가중 손실 함수를 사용하여 어휘를 단어 표현 학습에 통합한다.
  • 의미 해석이나 다중벡터 접근 방식의 복잡성을 피하기 위해 단일 벡터를 유지한다.
  • 동적으로 대체어를 걸러내는 필터링을 통해 코퍼스 기반 목표와 어휘 기반 정규화를 조합하여 단어 벡터를 학습한다.
  • 신뢰도 점수는 언어학적 신뢰도 기반으로 학습되거나 사전에 할당되며, 노이즈가 많은 대체어의 선택적 억제를 가능하게 한다.

실험 결과

연구 질문

  • RQ1신뢰도 인식 대체어 필터링이 다의어 존재 조건에서 단어 벡터 품질을 향상시킬 수 있는가?
  • RQ2훈련 중에 신뢰도가 낮은 대체어를 동적으로 제거하면 모든 대체어를 동일하게 취급하는 것보다 더 나은 단어 표현을 얻을 수 있는가?
  • RQ3선택적으로 어휘 정보를 사용함으로써 단일 벡터 단어 표현 모델이 더 나은 성능을 낼 수 있는가?
  • RQ4고정 계수를 사용하거나 다중 벡터를 사용하는 기존 접근 방식과 비교해 본다면, 제안된 방법은 어떻게 다른가?

주요 결과

  • 제안된 방법은 어휘 사전 내 불신뢰성 있는 대체어에서 유래하는 노이즈를 줄임으로써 단어 벡터 품질을 향상시킨다.
  • 모든 대체어에 동일한 계수를 적용하는 이전 방법보다 성능이 뛰어나며, 단어 유사도 및 어법 태스크에서 더 좋은 성능을 기록한다.
  • 신뢰도가 높은 대체어만 선택적으로 유지함으로써, 단일 벡터를 유지하면서도 더 복잡한 다중벡터 접근 방식과 비교해 유사한 성능을 달성한다.
  • 신뢰도 점수에 기반해 대체어를 동적으로 제거함으로써 더 견고하고 정확한 단어 표현이 도출된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.