Skip to main content
QUICK REVIEW

[논문 리뷰] MultiBooked: A Corpus of Basque and Catalan Hotel Reviews Annotated for Aspect-level Sentiment Classification

Jeremy Barnes, Patrik Lambert|arXiv (Cornell University)|2018. 03. 22.
Sentiment Analysis and Opinion Mining인용 수 29
한 줄 요약

이 논문은 캐탈로니아어 568건과 바스크어 343건의 호텔 리뷰로 구성된 고품질의 새로운 코퍼스인 MultiBooked을 소개한다. 이 코퍼스는 요소 수준의 감성 분류를 위해 주석 처리되었으며, 자원이 부족한 언어에서의 지도 학습 기반 요소 수준 감성 분석을 위한 핵심 자원을 제공한다. 이는 기존 多어성 코퍼스와 호환 가능한 표준화된 주석 방식을 통해 다국어 및 다언어 간 NLP 연구에서 성능 향상을 가능하게 한다.

ABSTRACT

While sentiment analysis has become an established field in the NLP community, research into languages other than English has been hindered by the lack of resources. Although much research in multi-lingual and cross-lingual sentiment analysis has focused on unsupervised or semi-supervised approaches, these still require a large number of resources and do not reach the performance of supervised approaches. With this in mind, we introduce two datasets for supervised aspect-level sentiment analysis in Basque and Catalan, both of which are under-resourced languages. We provide high-quality annotations and benchmarks with the hope that they will be useful to the growing community of researchers working on these languages.

연구 동기 및 목표

  • 캐탈로니아어 및 바스크어와 같이 자원이 부족한 언어에 대해 고품질의 요소 수준 감성 주석 처리 자료가 부족한 문제를 해결하기 위해.
  • 표준화된 다국어 호환 데이터셋을 제공하여 자원이 부족한 언어에서의 지도 기반 요소 수준 감성 분석을 지원하기 위해.
  • 기존의 다국어 코퍼스와 호환되는 자료를 구축하여 다국어 간 감성 분석의 진전을 이끌기 위해.
  • 비영어어, 형태소가 풍부한 언어에서의 모델 훈련 및 평가 벤치마크를 제공함으로써 다국어 NLP의 성능 향상에 기여하기 위해.
  • 이bero-언어에서의 의견 마이닝 및 감성 분석 연구를 촉진하기 위해 기존 자료가 제한된 상황을 고려하여.

제안 방법

  • Booking.com 및 Airbnb, TripAdvisor를 포함한 35개 이상의 여행 및 리뷰 웹사이트에서 호텔 리뷰를 크롤링하였다.
  • 정지어 수를 활용한 경량 언어 식별 방법을 적용하여 언어(캐탈로니아어 또는 바스크어) 기반으로 리뷰를 필터링하고 스페인어 및 혼합 언어 텍스트를 제거하였다.
  • 주석 처리에 충분한 내용을 확보하기 위해 7개 토큰 이하의 리뷰를 제거하였다.
  • Ixa-pipes를 사용하여 토크나이제이션, 품사 태깅 및 어형 복원을 위한 사전 처리를 수행하였다.
  • 표준화된 체계를 사용하여 각 리뷰를 요소 수준 감성에 대해 주석 처리하였으며, 의견 대상, 극성, 감성 어휘를 식별하였다.
  • 최종 데이터셋을 KAF/NAF 형식으로 저장하였으며, 이는 다층적 언어 주석(극성, 대상, 소유자 포함)을 가능하게 하는 스탠드오프 XML 형식이다.

실험 결과

연구 질문

  • RQ1자원이 부족한 언어인 바스크어 및 캐탈로니아어에 대해 고품질의 요소 수준 감성 주석 처리 코퍼스를 구축할 수 있는가?
  • RQ2이 새로운 코퍼스를 기반으로 훈련된 지도 기반 요소 수준 감성 분석 모델의 성능이 바스크어와 캐탈로니아어에서 어떻게 비교되는가?
  • RQ3이 코퍼스가 여러 언어 간 감성 분석에 얼마나 효과적으로 활용될 수 있는가?
  • RQ4이 코퍼스의 상호 주석자 간 일치도는 어느 정도이며, 이는 주석의 신뢰성에 어떻게 기여하는가?
  • RQ5KAF/NAF 형식의 구조가 다국어 NLP 파이프라인에서 주석 처리된 데이터의 통합 및 재사용을 어떻게 지원하는가?

주요 결과

  • 저자들은 요소 수준 감성 분석에 적합한 568건의 캐탈로니아어 및 343건의 바스크어 호텔 리뷰를 성공적으로 수집하고 정제하여 고품질의 다국어 데이터셋을 구축하였다.
  • 코퍼스는 http://hdl.handle.net/10230/33928 및 GitHub 레포지토리에서 이용 가능하여 연구자들에게 광범위한 접근성을 보장한다.
  • 상호 주석자 간 일치도는 Fleiss의 카파를 사용하여 측정되었으며, 상당한 일치도 점수를 기록하여 주석의 신뢰성을 입증하였다.
  • 데이터셋은 KAF/NAF 형식으로 구조화되어 있어 품사 태깅, 어형 복원, 의견 대상 등의 풍부한 언어 주석을 지원한다.
  • 이 코퍼스는 캐탈로니아어 및 바스크어에서 요소 수준 감성 분석를 위한 첫 번째 사례로서, 다국어 NLP 자원의 핵심적 공백을 메우고 있다.
  • 이 데이터셋은 향후 다국어 간 감성 분석 연구를 지원하며, 자원이 부족한 환경에서 지도 기반 모델의 벤치마크를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.