Skip to main content
QUICK REVIEW

[논문 리뷰] Welcome to the Modern World of Pronouns: Identity-Inclusive Natural Language Processing beyond Gender

Anne Lauscher, Archie Crowley|arXiv (Cornell University)|2022. 02. 24.
Hate Speech and Cyberbullying Detection인용 수 25
한 줄 요약

이 논문은 영어에서 제3인칭 대명사 현상(신대명사 포함)을 조사하고, 대명사 모델링을 위한 다섯 가지 desiderata를 제안하며, 패러다임을 검토하고, 비어휘화(delexicalization)가 공참조 태스크의 공정성을 개선할 수 있음을 실험적으로 보여준다.

ABSTRACT

The world of pronouns is changing. From a closed class of words with few members to a much more open set of terms to reflect identities. However, Natural Language Processing (NLP) is barely reflecting this linguistic shift, even though recent work outlined the harms of gender-exclusive language technology. Particularly problematic is the current modeling 3rd person pronouns, as it largely ignores various phenomena like neopronouns, i.e., pronoun sets that are novel and not (yet) widely established. This omission contributes to the discrimination of marginalized and underrepresented groups, e.g., non-binary individuals. However, other identity-expression phenomena beyond gender are also ignored by current NLP technology. In this paper, we provide an overview of 3rd person pronoun issues for NLP. Based on our observations and ethical considerations, we define a series of desiderata for modeling pronouns in language technology. We evaluate existing and novel modeling approaches w.r.t. these desiderata qualitatively, and quantify the impact of a more discrimination-free approach on established benchmark data.

연구 동기 및 목표

  • 신대명사와 nounself/emojiself 대명사를 포함한 영어의 제3인칭 대명사 현상에 대한 체계적 개요를 제시한다.
  • NLP 시스템에서 대명사 모델링을 위한 다섯 가지 desiderata를 제시하여 편견을 줄이고 정체성 다양성을 반영한다.
  • 기존 및 새로운 대명사 모델링 패러다임을 desiderata에 대해 평가한다.
  • 표준 공참조 벤치마크에서 비모델링(non-modeling)(delexicalization)의 영향을 정량화한다.
  • 윤리적 고려사항을 강조하고 broader discussion 및 향후 다국어 확장을 위한 살아있는 초안을 개략한다.

제안 방법

  • 신문헌 고찰 및 신대명사 현상에 대한 언어학적 종합에 집중: 신대명사와 정체성과 관련된 대명사.
  • Reddit의 코퍼스 분석을 통해 대명사 사용을 관찰하고 현실 텍스트에서 현상을 식별한다.
  • 대명사 모델링을 위한 다섯 가지 desiderata(D1–D5)의 정의.
  • desiderata에 대해 패러다임(Classic, Bucketing, Delexicalization, Post-hoc)의 질적 평가(Table 3).
  • OntoNotes 5.0 공참조 해석에서 대명사를 대체하는 비어휘화의 영향 측정을 위한 통제된 실험(Table 5).
  • RoBERTa-large를 인코더로 사용하고 표준 손실 및 학습 설정으로 Dobrovolskii 2021의 최첨단 공참조 모델을 재생산 및 적용.

실험 결과

연구 질문

  • RQ1자사 NLP에 관련된 영어 제3인칭 대명사 사용의 현재 현상은 무엇인가(신대명사와 논항성 비이진 정체성 포함)?
  • RQ2정체성 가정을 하지 않으면서도 다양하고 진화하는 대명사 세트를 NLP 모델이 어떻게 다루어야 하는가(D1)?
  • RQ3기존 대명사, 신대명사, 신규 대명사를(D2–D3) 모델이 수용하고 복수 또는 변화하는 대명사 세트를 수용할 수 있는가(D4)?
  • RQ4언어학적 대명사 모델링과 비어휘화 간의 공정성 및 작업 성능 측면의 트레이드오프는 무엇인가(D5)?
  • RQ5비어 휘의화가 표준 벤치마크에서 공참조 해석 성능에 어떤 영향을 미치는가?

주요 결과

  • 온라인 담론에 신대명사와 비이진 대명사가 존재하며 Reddit의 코퍼스 분석을 통해 식별될 수 있어 광범위하고 진화하는 열린 클래스 대명사 세트가 있음을 시사한다.
  • 다섯 가지 desiderata(D1–D5)가 제시되어 NLP에서 대명사 모델링을 안내하며, 비가정성, 신규 대명사에 대한 개방성, 사용자 참여를 강조한다.
  • 전통적인 대명사 모델링은 편향에 취약하고 커버리지가 제한적이며; 비어휘화는 대명사를 자리 표시자로 다루면서도 작업에 관련된 정보를 보존하여 차별을 완화할 수 있다.
  • OntoNotes 5.0의 공참조 해석 설정에서 테스트 대명사를 바꾸면 성능이 심하게 저하되지만, 학습 대명사를 자리 표시자로 대체하면 손실이 크게 완화되어, 비어휘화가 성능 손실을 modest하게 희생하며 공정성을 개선할 수 있음을 시사한다.
  • 본 연구는 비어휘화가 공참조 해석의 공정성을 높이고 경쟁력 있는 성능을 유지할 수 있음을 보여주며, 모든 시나리오에서 표면적 형태의 대명사 모델링의 필요성을 도전한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.