QUICK REVIEW

[논문 리뷰] 1.5 billion words Arabic Corpus

Ibrahim Abu El-khair|arXiv (Cornell University)|2016. 11. 12.

Language, Linguistics, Cultural Analysis인용 수 57

한 줄 요약

이 논문은 14년간 8개 아랍어권 국가의 10개 주요 뉴스 매체에서 온 500만 건 이상의 신문 기사에서 수집한 15억 단어 분량의 아랍어 텍스트 코퍼스를 제시한다. 코퍼스는 UTF-8과 Windows CP-1256로 인코딩되었으며, SGML 및 XML로 마크업되어 현대적인 언어학적 자료로서 아랍어 NLP 연구에 활용할 수 있는 대규모 자료를 제공한다. 고유어 형태는 300만 개 이상이다.

ABSTRACT

This study is an attempt to build a contemporary linguistic corpus for Arabic language. The corpus produced, is a text corpus includes more than five million newspaper articles. It contains over a billion and a half words in total, out of which, there is about three million unique words. The data were collected from newspaper articles in ten major news sources from eight Arabic countries, over a period of fourteen years. The corpus was encoded with two types of encoding, namely: UTF-8, and Windows CP-1256. Also it was marked with two mark-up languages, namely: SGML, and XML.

연구 동기 및 목표

다양한 지역 출처를 반영하는 현대적인 사용 방식을 반영하는 대규모, 현대적인 아랍어 언어학적 코퍼스를 구축하기 위해.
14년에 걸쳐 8개 국가에서 활동하는 주요 아랍어 신문들로부터 포괄적인 텍스트 코퍼스를 수집하고 구조화하기 위해.
이중 문자 인코딩(UTF-8 및 CP-1256)과 이중 마크업(SGML 및 XML)을 활용하여 언어학적 및 기술적 탄탄함을 확보하기 위해.
표준화되고 접근 가능한 코퍼스를 통해 아랍어 NLP, 디지털 도서관 및 정보 검색 연구를 지원하기 위해.
현대 표준 아랍어의 어휘 분석, 언어 모델링 및 계산 처리를 위한 기초 자료를 제공하기 위해.

제안 방법

2000~2014년 기간 동안 8개 아랍어권 국가의 10개 주요 아랍어 신문에서 데이터 수집.
다양한 출처 및 형식 간 일관성을 확보하기 위해 텍스트 추출 및 정규화.
광범위한 호환성을 확보하기 위한 UTF-8과 레거시 아랍어 텍스트 시스템을 위한 Windows CP-1256을 활용한 이중 문자 인코딩.
언어학적 및 문서 수준의 메타데이터를 위한 구조화된 표현을 가능하게 하기 위해 SGML 및 XML 마크업 적용.
비텍스트 콘텐츠 제거 및 데이터 품질 확보를 위한 청소 및 전처리.
학술적 및 계산적 활용을 위해 검색 가능하고 접근 가능한 형식으로 코퍼스를 저장 및 정리.

실험 결과

연구 질문

RQ1다양한 신문 출처에서 체계적으로 대규모 현대 아랍어 코퍼스를 어떻게 구축할 수 있는가?
RQ2다국어 및 다지역 아랍어 텍스트 코퍼스에서 언어학적 및 계산적 탄탄함을 확보하기 위한 기술적 접근은 무엇인가?
RQ315억 단어 분량의 코퍼스가 언어 모델링 및 정보 검색과 같은 고급 NLP 작업을 얼마나 잘 지원하는가?
RQ4이중 인코딩 및 마크업 표준은 아랍어 텍스트 코퍼스의 유용성과 지속 가능성에 어떻게 기여하는가?
RQ5이질적인 출처에서 표준화된 대규모 아랍어 언어학 자료를 구축하는 데의 과제와 해결책은 무엇인가?

주요 결과

코퍼스는 500만 건 이상의 신문 기사에서 유래한 15억 단어 이상을 포함하며, 현대 아랍어 텍스트 자료로서 상당한 규모를 지닌다.
코퍼스에는 약 300만 개의 고유어 형태가 포함되어 있어 현대 표준 아랍어의 광범위한 어휘 커버리지가 이루어져 있음을 시사한다.
UTF-8 및 CP-1256를 활용한 이중 인코딩은 최신 및 레거시 시스템 간 호환성을 보장하여 접근성을 향상시킨다.
SGML 및 XML 마크업은 고급 처리 및 메타데이터 관리를 위한 구조화되고 기계로 읽을 수 있는 표현을 제공한다.
코퍼스는 14년(2000–2014)에 걸쳐 8개 아랍어권 국가의 콘텐츠를 포함하며 지역적 어휘 변동성을 반영한다.
코퍼스는 아랍어 NLP, 디지털 도서관 및 정보 검색 연구를 위한 기초 자료로 공개되어 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.