Skip to main content
QUICK REVIEW

[논문 리뷰] They, Them, Theirs: Rewriting with Gender-Neutral English

Tony Sun, Kellie Webster|arXiv (Cornell University)|2021. 02. 12.
Hate Speech and Cyberbullying Detection참고 문헌 20인용 수 28
한 줄 요약

이 논문은 단일 엔티티 문장에 대한 성 중립적 영어 재작성 작업을 정의하고 벤치마크를 만들며, 라벨링된 데이터 없이도 they/them 형태로 재작성하는 방법을 학습할 수 있음을 Seq2Seq 모델이 99 이상 BLEU, 1% 미만 WER로 보여준다.

ABSTRACT

Responsible development of technology involves applications being inclusive of the diverse set of users they hope to support. An important part of this is understanding the many ways to refer to a person and being able to fluently change between the different forms as needed. We perform a case study on the singular they, a common way to promote gender inclusion in English. We define a re-writing task, create an evaluation benchmark, and show how a model can be trained to produce gender-neutral English with <1% word error rate with no human-labeled data. We discuss the practical applications and ethical considerations of the task, providing direction for future work into inclusive natural language systems.

연구 동기 및 목표

  • 성별링크가 있는 영어 참조를 단일 엔티티 문장에서 성 중립적 영어 참조로 매끄럽게 전환할 수 있게 하여 포용적 NLP를 촉진한다.
  • 다양한 영역에 걸친 500쌍의 성별/성 중립 문장 쌍으로 인간이 큐레이션한 평가 벤치마크를 만든다.
  • 인간이 라벨링한 병렬 데이터 없이도 모델이 성 중립적 재작성 생성을 학습할 수 있음을 입증한다.
  • 다른 언어 및 정체성 표식에도 적용 가능한 가볍고 확장 가능한 방법론을 제안한다.]
  • method:["정규 표현식, 의존성 파서(SpaCy), 언어 모델(GPT-2)을 이용해 1억 개의 위키피디아 문장을 1,500만 개의 성별 있는 문장으로 필터링하여 자동으로 병렬 데이터 세트를 생성하는 재작성 알고리즘을 개발한다.","생성된 병렬 데이터에 증강(비성별 정체성 데이터 및 성에 영향받는 문장)을 추가하여 6 Encoder-6 Decoder 계층의 Transformer 시퀀스-투-시퀀스 모델을 학습한다.","생성된 데이터에 대해 BLEU와 단어 오류율(WER)을 다섯 도메인의 500문장 쌍으로 이루어진 수동 주석 시험 세트로 평가한다.","명시적 재작성 알고리즘과 신경망 Seq2Seq 모델을 비교하여 대명사/동사 처리 및 희귀 토큰에서의 강점/약점을 평가한다.","모델 카드 제공 및 배치 및 포용성에 대한 윤리적 고려를 논의한다."]
  • research_questions:[

제안 방법

  • ]
  • research_questions: [

실험 결과

연구 질문

  • RQ1모델이 단일 인간 엔터티를 사용하는 성별이 있는 영어 문장을 they/them을 사용한 성 중립 형태로 유창하게 재작성할 수 있는가?
  • RQ2수동으로 라벨링된 병렬 데이터 없이 자동 규칙 기반 데이터 생성으로 그러한 모델을 학습시킬 수 있는가?
  • RQ3규칙 기반 대 Seq2Seq 접근 방식이 다양한 도메인에서 정확도(BLEU)와 단어 수준 오류(WER) 측면에서 어떻게 비교되는가?
  • RQ4NLP 시스템에서 성 중립적 재작성 배치의 실용적 및 윤리적 함의는 무엇인가?
  • RQ5트윗터 및 레딧과 같은 소음이 많은 텍스트 도메인에서 도메인 이동 및 희귀 어휘에 대해 이 접근법은 얼마나 강건한가?

주요 결과

  • 알고리즘과 Seq2Seq 모델 모두 시험 세트에서 BLEU 점수 99 이상, WER 1% 미만을 달성한다.
  • 알고리즘이 BLEU와 WER에서 모델보다 약간 우수하지만, 모델은 대명사/동사 오류가 더 적고 이모지 및 기호와 같은 희귀 토큰에서 더 큰 영향을 받는다.
  • 모델 오류는 도메인 불일치와 희귀 어휘에 더 민감한 반면, 알고리즘은 특정 동사에서 구문 분석 오류가 더 잘 발생한다.
  • 학습 병렬 데이터 생성에 약 1,500만 개의 성별 있는 문장이 1억 개의 위키피디아 문장에서 추출되었다.
  • 시험 세트는 다섯 도메인(트위터, 레딧, 뉴스, 영화 대사, 농담)에 걸쳐 수동 주석된 500개의 성별 문장을 균형 있게 구성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.