Skip to main content
QUICK REVIEW

[논문 리뷰] "I don't believe in word senses"

Adam Kilgarriff|arXiv (Cornell University)|1997. 12. 23.
Natural Language Processing Techniques인용 수 103
한 줄 요약

이 논문은 어휘의 의미가 기본적인 의미 단위가 아니며, 특정 작업과 목적에 따라 의존하는 집합적 인용문들에서 유도된 추상화임을 주장한다. 자연어처리(NLP)에서 고정된 사전 기반 어휘의 의미를 전제로 하는 것에 도전하며, 어휘의 의미 해석이 사전에 미리 정의된 어휘 항목이 아니라 실제 언어 사용의 맥락적 관련 집합에 기반해야 한다고 제안한다.

ABSTRACT

Word sense disambiguation assumes word senses. Within the lexicography and linguistics literature, they are known to be very slippery entities. The paper looks at problems with existing accounts of `word sense' and describes the various kinds of ways in which a word's meaning can deviate from its core meaning. An analysis is presented in which word senses are abstractions from clusters of corpus citations, in accordance with current lexicographic practice. The corpus citations, not the word senses, are the basic objects in the ontology. The corpus citations will be clustered into senses according to the purposes of whoever or whatever does the clustering. In the absence of such purposes, word senses do not exist. Word sense disambiguation also needs a set of word senses to disambiguate between. In most recent work, the set has been taken from a general-purpose lexical resource, with the assumption that the lexical resource describes the word senses of English/French/..., between which NLP applications will need to disambiguate. The implication of the paper is, by contrast, that word senses exist only relative to a task.

연구 동기 및 목표

  • NLP 및 어휘 편찬에서 어휘의 의미가 이산적이고 안정적이며 보편적으로 적용 가능한 의미 단위라고 가정하는 데에 비판을 제기하기 위해.
  • 언어학적 및 계산적 연구에서 '어휘의 의미' 개념에 대한 원칙적인 기초가 부족한 문제를 다루기 위해.
  • 코퍼스 인용문—실제 맥락 속에서의 어휘 사용—을 기본 단위로 삼고, 어휘의 의미를 이러한 인용문들의 집합에서 파생된 추상화로 보는 대안적 온톨로지를 제안하기 위해.
  • 어휘의 의미가 언어에 내재된 것이 아니라 특정 목적(예: 사전 편찬 또는 NLP 응용)에 따라 구성된다는 것을 입증하기 위해.
  • 어휘의 의미가 언어 사용의 다양성과 응용 요구에 따라 다양하게 변할 수 있음을 고려할 때, 보편적인 어휘의 의미 집합은 실현 가능하지도 않고 필수적인 것이 아니라는 것을 주장하기 위해.

제안 방법

  • 코퍼스 인용문을 기본 데이터 단위로 간주하며, 어휘의 의미라는 추상 개념이 아니라 온톨로지의 주요 대상으로서의 인용문을 다룬다.
  • 어휘의 의미가 의미적 및 문법적으로 유사한 인용문들의 군집으로 나타나며, 공통된 패턴과 의미를 공유함에 따라 유도된다는 것을 제안한다.
  • BNC 및 음악 저널리즘 코퍼스 등의 실제 코퍼스 데이터로부터의 경험적 증거를 사용하여, 어휘 사용이 분야에 따라 어떻게 달라지는지와 이것이 의미 형성에 어떤 영향을 미치는지 보여준다.
  • 비표준적 또는 창의적인 어휘 사용(예: 'handbag'을 동사로 사용)이 생성적으로 예측 가능하지 않으며, 역사적 또는 어울림 패턴에 따라 특정하게 발생함을 보여주며, 이를 위해 명시적인 어휘 항목이 필요하다고 주장한다.
  • 보편적인 의미 목록에 의존하기보다는, 특정 작업에 필요한 경우 새로운 어휘 항목(예: 'verbally handbag')을 추가하는 작업별로 맞춤화된 계층적 어휘를 NLP에서 도입할 것을 주장한다.
  • 어휘의 의미 해석을 사전에 존재하는 의미를 찾는 것으로 보는 것이 아니라, 특정 응용에 적합한 사용 패턴 집합을 식별하는 과정으로 재정의한다.

실험 결과

연구 질문

  • RQ1어휘의 의미를 이산적이고 안정적인 단위로 간주하는 데에 이론적이고 경험적인 기초는 무엇인가?
  • RQ2지난 30년간 '어휘의 의미'를 견고한 기초로 정의하려는 尝시가 왜 실패했는가?
  • RQ3코퍼스 인용문과 그들의 군집화는 실질적으로 어휘의 의미 형성과 어떤 관련이 있는가?
  • RQ4어휘의 의미가 언어적 본질적 특성보다 편집 정책, 사용자 요구, 분야별 사용 방식에 의해 얼마나 결정되는가?
  • RQ5NLP 시스템이 어휘의 의미를 보편적인 사전에서 가져온 고정된 항목이 아니라, 사용 패턴 군집에서 작업에 따라 상대적인 추상화로 간주함으로써 더 나은 의미 해석을 달성할 수 있는가?

주요 결과

  • 어휘의 의미는 기본적인 의미 단위가 아니며, 특정한 온톨로지적 지위 없이 코퍼스 인용문들의 군집에서 파생된 추상화이다.
  • '어휘의 의미' 개념은 이론적으로 불안정하며 언어학적 또는 계산적 연구에서 견고한 기초를 지니지 못한다.
  • 사전에 수록된 어휘의 의미는 보편적인 의미 원칙이 아니라 편집 정책과 목적에 맞춘 사용자 요구에 의해 결정된다.
  • 비표준적 또는 창의적인 어휘 사용(예: 'handbag'을 동사로 사용)은 생성적으로 예측 가능하지 않으며, 일반적으로 특정한 역사적 또는 어울림 패턴에서 기인한다.
  • 다른 코퍼스(예: BNC 대비 음악 저널리즘 코퍼스)는 동일한 어휘에 대해 서로 다른 주목할 만한 의미를 도출하며, 이는 의미 집합이 맥락에 따라 달라진다는 것을 보여준다.
  • NLP 시스템은 보편적인 의미 목록에 의존해서는 안 되며, 특정 작업에 필요한 특정 어휘나 새로운 사용에 맞게 어휘를 확장하는 것이 바람직하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.