[논문 리뷰] HUMOR: A Crowd-Annotated Spanish Corpus for Humor Analysis.
이 논문은 인터넷을 통해 1,300명의 익명 분석가로부터 수집된 27,000개의 트윗을 포함하는 스페인어 트윗 코퍼스인 HUMOR를 소개한다. 이 코퍼스는 유머 레이블과 웃기기 정도 점수를 포함하며, Krippendorff's alpha 값이 0.5710으로 산출되어 중간 정도에서 상당한 일致도를 보이며, 자연어처리(NLP) 분야에서 유머 감지 및 주관성 분석의 기초 자료로 기능한다.
Computational Humor involves several tasks, such as humor recognition, humor generation, and humor scoring, for which it is useful to have human-curated data. In this work we present a corpus of 27,000 tweets written in Spanish and crowd-annotated by their humor value and funniness score, with about four annotations per tweet, tagged by 1,300 people over the Internet. It is equally divided between tweets coming from humorous and non-humorous accounts. The inter-annotator agreement Krippendorff's alpha value is 0.5710. The dataset is available for general use and can serve as a basis for humor detection and as a first step to tackle subjectivity.
연구 동기 및 목표
- 유머와 웃기기 정도에 대해 분석된 대규모 공개 코퍼스를 구축하여 계산적 유머 연구를 지원하기 위해.
- 특히 스페인어를 포함한 다국어 유머 데이터셋의 부족 문제를 해결하기 위해.
- 저자원 언어인 스페인어와 같은 언어에서 유머 감지, 유머 점수 매기기 및 주관적 언어 이해 연구를 가능하게 하기 위해.
- 소셜 미디어 텍스트에서 유머 인식 및 주관성 분석에 대한 모델 평가 기준을 제공하기 위해.
제안 방법
- 코퍼스는 스페인어 트위터 계정에서 유머가 있는 경우와 없는 경우를 균형 있게 포함하여 총 27,000개의 트윗을 수집하여 제작되었다.
- 각 트윗은 사용자당 약 4개의 분석을 받았으며, 유머 가치(유머 있음/없음)와 수치 척도 기반의 웃기기 정도 점수를 포함한다.
- 분석은 인터넷을 통해 1,300명의 개인으로부터 군중 분석 방식으로 수집되어, 광범위한 언어적 커버리지와 다양성을 확보하였다.
- 분석가 간 일치도는 Krippendorff's alpha를 사용하여 측정되었으며, 그 결과 값은 0.5710으로 중간 정도에서 상당한 일致도를 보였다.
- 이 데이터셋은 공개적으로 배포되었으며, 유머 감지 및 점수 매기기 모델의 학습 및 평가에 사용하기 위해 설계되었다.
실험 결과
연구 질문
- RQ1스페인어 트윗의 유머 및 웃기기 정도에 대해 분석가들이 얼마나 일致도를 보이는가?
- RQ2스페인어 소셜 미디어 텍스트에 대해 군중 분석 방식이 신뢰할 수 있는 유머 분석을 생성하는 데 얼마나 효과적인가?
- RQ3이 코퍼스가 저자원 언어인 스페인어와 같은 언어에서 계산적 유머 시스템 개발을 얼마나 잘 지원할 수 있는가?
- RQ4이 데이터셋이 NLP 분야에서 유머 감지 및 주관성 분석에 실질적인 기준으로 기능할 수 있는가?
주요 결과
- HUMOR 코퍼스는 유머가 있는 트윗과 없는 트윗이 균형을 이루며 총 27,000개의 스페인어 트윗을 포함하고 있다.
- 각 트윗은 평균 4개의 분석을 받았으며, 이는 강력하고 신뢰할 수 있는 레이블링에 기여한다.
- Krippendorff's alpha로 측정된 분석가 간 일치도는 0.5710으로, 분석가들 간 중간 정도에서 상당한 일致도를 보였다.
- 이 데이터셋은 일반 사용을 위해 공개되어 있으며, 유머 감지 및 주관적 언어 이해 분야의 연구를 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.