[论文解读] MultiBooked: A Corpus of Basque and Catalan Hotel Reviews Annotated for Aspect-level Sentiment Classification
本文介紹了 MultiBooked,一個新創建的高品質語料庫,包含 568 範加泰羅尼亞語和 343 範巴斯克語的酒店評論,並針對方面級情感分類進行了標註。該語料庫為低資源語言的監督式方面級情感分析提供了關鍵資源,支援多語系與跨語言自然語言處理研究,其標準化標註方式與現有的多語語料庫相容。
While sentiment analysis has become an established field in the NLP community, research into languages other than English has been hindered by the lack of resources. Although much research in multi-lingual and cross-lingual sentiment analysis has focused on unsupervised or semi-supervised approaches, these still require a large number of resources and do not reach the performance of supervised approaches. With this in mind, we introduce two datasets for supervised aspect-level sentiment analysis in Basque and Catalan, both of which are under-resourced languages. We provide high-quality annotations and benchmarks with the hope that they will be useful to the growing community of researchers working on these languages.
研究动机与目标
- 解決如巴斯克語與加泰羅尼亞語等低資源語言缺乏高品質、方面級情感標註資源的問題。
- 透過提供標準化、具多語兼容性的資料集,支援低資源語言的監督式方面級情感分析。
- 透過建立與現有多語語料庫相容的資源,促進跨語言情感分析的進展。
- 透過提供非英語、詞形豐富語言的訓練與評估基準,提升多語系自然語言處理的表現。
- 透過提供有限現有資源的伊比利亚語言意見挖掘與情感分析研究支援。
提出的方法
- 從 Booking.com 及其他 35 個旅遊與評論網站(包括 Airbnb 和 TripAdvisor)爬取酒店評論。
- 使用停用詞計數的輕量級語言識別方法,依語言(加泰羅尼亞語或巴斯克語)過濾評論,排除西班牙語與混合語言內容。
- 將長度短於 7 個詞符的評論過濾掉,以確保足夠的內容供標註。
- 使用 Ixa-pipes 進行文字處理,包括分詞、詞性標註與詞幹還原。
- 使用標準化方案對每則評論進行方面級情感標註,識別意見目標、極性與情感詞語。
- 將最終資料集儲存於 KAF/NAF 格式,一種獨立的 XML 格式,支援多層次語言學標註,包含極性、目標與持有者。
实验结果
研究问题
- RQ1能否為如巴斯克語與加泰羅尼亞語等低資源語言建立高品質、方面級情感標註語料庫?
- RQ2當在本語料庫上訓練時,監督式方面級情感分析模型在巴斯克語與加泰羅尼亞語中的表現如何比較?
- RQ3此語料庫在多語言間支援跨語言情感分析的應用程度為何?
- RQ4語料庫的跨標註者一致性水準為何?其如何驗證標註的可靠性?
- RQ5KAF/NAF 格式之結構如何支援 annotated 數據在多語系自然語言處理流程中的整合與重用?
主要发现
- 作者成功收集並整理了 568 範加泰羅尼亞語與 343 範巴斯克語的酒店評論,適用於方面級情感分析,形成高品質、多語系的資料集。
- 該語料庫可透過 http://hdl.handle.net/10230/33928 及 GitHub 儲存庫取得,確保研究者廣泛存取。
- 使用 Fleiss’ kappa 測量跨標註者一致性,獲得顯著的一致性分數,驗證了標註的可靠性。
- 資料集以 KAF/NAF 格式結構化,支援豐富的語言學標註,如詞性標籤、詞幹與意見目標。
- 此語料庫是加泰羅尼亞語與巴斯克語方面級情感分析的首份類似資源,彌補了多語系自然語言處理資源中的關鍵缺口。
- 該資料集支援未來跨語言情感分析的研究,並為低資源環境下監督式模型提供基準。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。