Skip to main content
QUICK REVIEW

[논문 리뷰] A Large Self-Annotated Corpus for Sarcasm

Mikhail Khodak, Nikunj Saunshi|arXiv (Cornell University)|2017. 04. 19.
Sentiment Analysis and Opinion Mining참고 문헌 17인용 수 133
한 줄 요약

SARC를 소개합니다. Reddit 기반의 대형 자기 주석(Self-annotated) 풍자 감지 코퍼스로 1.3 million sarcastic comments와 풍부한 맥락을 제공하며 벤치마크와 기본 결과를 포함합니다. 데이터 품질을 분석하고 다른 소스와 비교하며 풍자 작업에서 인간 성능과 기준선을 제시합니다.

ABSTRACT

We introduce the Self-Annotated Reddit Corpus (SARC), a large corpus for sarcasm research and for training and evaluating systems for sarcasm detection. The corpus has 1.3 million sarcastic statements -- 10 times more than any previous dataset -- and many times more instances of non-sarcastic statements, allowing for learning in both balanced and unbalanced label regimes. Each statement is furthermore self-annotated -- sarcasm is labeled by the author, not an independent annotator -- and provided with user, topic, and conversation context. We evaluate the corpus for accuracy, construct benchmarks for sarcasm detection, and evaluate baseline methods.

연구 동기 및 목표

  • Reddit에서 소스된 대규모의 자체 주석 풍자 데이터셋을 제공하여 탐지 연구를 지원한다.
  • 자가 주석 풍자 레이블의 데이터 품질과 노이즈를 다른 소스와 비교하여 평가한다.
  • 풍자 감지 작업에서 벤치마크를 만들고 간단한 기본 모델과 인간 성능을 평가한다.

제안 방법

  • Reddit에서 '/s' 마커를 주석 신호로 사용하여 자체 주석 풍자 코퍼스를 구성한다.
  • 노이즈를 줄이고 주석 확산을 피하기 위해 풍자 코멘트의 자손을 제외하는 필터링을 적용한다.
  • 대화 맥락과 메타데이터를 포함한 평가를 위한 원시 데이터 파일과 구조화된 하위 집합을 제공한다.
  • 벡-오브-워드, 벡-오브-바이그램, 문장 임베딩을 사용한 기본 분류기를 평가하고 인간 성능과 비교한다.
  • 주제 주도 난이도를 테스트하기 위해 균형 및 비균형 평가 설정과 정치(Politics) 하위 집합을 만든다.

실험 결과

연구 질문

  • RQ1자가 주석 풍자 코퍼스의 라벨 품질을 유지하면서 얼마나 큰 규모까지 확장할 수 있는가?
  • RQ2맥락과 대화 구조가 풍자 감지 성능에 어떤 영향을 미치는가?
  • RQ3자체 주석 Reddit 데이터를 사용한 풍자 감지에서 간단한 기본 모델이 인간 성능과 어떻게 비교되는가?
  • RQ4라벨 균형(균형 vs. 비균형)이 풍자 감지 벤치마크에 어떤 영향을 미치는가?
  • RQ5주제 도메인(예: 정치)이 인간과 기계의 풍자 탐지 가능성에 영향을 주는가?

주요 결과

  • SARC 코퍼스는 약 1.34백만 개의 풍자 코멘트와 533백만 개의 총 코멘트를 포함하고 있어 기존 데이터셋보다 현격히 크다.
  • 수동 평가에서 자기 주석 방식의 거짓 양성 비율은 1.0%, 거짓 음성 비율은 2.0%로 확인되어 노이즈는 관리 가능하나 도전 과제가 존재함을 보여준다.
  • 기본 방법(BOW, BOG, 문장 임베딩)은 우연적 정확도보다 높지만 인간 성능에는 미치지 못한다.
  • 인간 평가자는 기계 기본보다 더 높은 정확도를 달성하고, 구성 간 일치도는 중간 수준(Fleiss kappa ~0.5 전 용도, ~0.67 정치 분야)이다.
  • 맥락 및 주제 정보가 탐지 성능을 향상시키고, 인간 간 다수결 투표가 특정 하위 집합에서 단일 주제 성능을 능가할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.