QUICK REVIEW

[논문 리뷰] NELL2RDF: Reading the Web, and Publishing it as Linked Data

José M. Giménez‐García, Maísa Duarte|arXiv (Cornell University)|2018. 04. 16.

Semantic Web and Ontologies인용 수 1

한 줄 요약

이 논문은 NELL의 웹에서 추출한 지식과 그 풍부한 내부 유래 메타데이터를 다섯 가지 다른 재구성 모델을 사용하여 표준화되고 자가 기술적인 RDF 데이터셋으로 변환하는 NELL2RDF 시스템을 제시한다. 주요 기여는 165GB 이상의 구조화되고 연결된 데이터(모든 승인된 및 후보 민감도 신념 포함)를 공개하는 것으로, 신뢰도 점수와 완전한 기원 정보를 함께 제공하여 Linked Data 클라우드에서 가장 포괄적인 유래 정보를 갖춘 데이터셋 중 하나로 간주된다.

ABSTRACT

NELL is a system that continuously reads the Web to extract knowledge in form of entities and relations between them. It has been running since January 2010 and extracted over 50,000,000 candidate statements. NELL's generated data comprises all the candidate statements together with detailed information about how it was generated. This information includes how each component of the system contributed to the extraction of the statement, as well as when that happened and how confident the system is in the veracity of the statement. However, the data is only available in an ad hoc CSV format that makes it difficult to exploit out of the context of NELL. In order to make it more usable for other communities, we adopt Linked Data principles to publish a more standardized, self-describing dataset with rich provenance metadata.

연구 동기 및 목표

NELL 생태계 외부에서도 NELL의 광범위한 지식 기반과 그 세부적인 내부 메타데이터를 접근 가능하게 하기 위해.
NELL의 네이티브 CSV 형식이 가지는 상호운용성 및 재사용 제약을 해결하기 위해.
기존의 RDF 표준을 활용하여 NELL의 데이터와 메타데이터를 자가 기술적이고 기계가 처리할 수 있는 Linked Data로 공개하기 위해.
다양한 메타데이터 표현 모델을 갖춘 대규모 실세계 데이터셋을 제공함으로써 향후 유래 모델링 연구를 지원하기 위해.
NELL의 지식을 의미론적 추론 및 신뢰 인식 쿼리 시스템에 통합할 수 있도록 지원하기 위해.

제안 방법

RDF 재구성, N-항 관계, Named Graphs, Singleton Properties, NdFluents를 포함한 다섯 가지 다른 재구성 모델을 사용하여 NELL의 후보 민감도 및 승인된 민감도를 RDF로 변환한다.
각 메타데이터 소스에 맞는 도메인 전용 온톨로지로 구성 요소 기여도, 신뢰도 점수, 타임스탬프, 규칙 사용 정보 등 메타데이터의 유래 정보를 모델링한다.
CML, CPL, LE, MBL 및 스프레드시트 편집에서 유래한 NELL의 내부 메타데이터를 표준화된 속성과 도메인으로 RDF 삼항관계로 매핑한다.
VoID 및 DCAT 어휘를 사용하여 데이터셋의 구조, 크기, 배포 방식을 기술한다.
여러 덤프로 데이터셋을 배포하며, 향후 SPARQL 엔드포인트와 해석 가능한 URI를 노출할 계획이다.
각 민감도를 관련 메타데이터를 갖춘 일급 자원으로 표현하기 위해 재구성 기법을 적용하여 세밀한 유래 추적을 가능하게 한다.

실험 결과

연구 질문

RQ1NELL의 방대한 반구조화된 지식 기반과 그 내부 메타데이터는 어떻게 표준화되고 기계가 처리할 수 있는 RDF로 효과적으로 변환될 수 있는가?
RQ2다섯 가지 재구성 모델(RDF 재구성, N-항 관계, Named Graphs, Singleton Properties, NdFluents) 중에서 NELL 민감도의 전체 유래 정보를 가장 잘 유지하고 노출하는 것은 무엇인가?
RQ3후보 민감도와 승인된 민감도를 모두 포함할 경우, 결과로 나오는 RDF 데이터셋의 총 크기와 표현력에 어떤 영향을 미치는가?
RQ4신뢰도 점수와 구성 요소 수준의 유래 정보는 어떻게 의미론적으로 모델링하고 공개할 수 있으며, 이는 신뢰 인식 추론을 지원하는 데 어떤 역할을 하는가?
RQ5이 데이터셋은 실세계 대규모 지식 그래프에서의 유래 모델링 기법 평가를 위한 견고한 시험대가 될 수 있는가?

주요 결과

NELL2RDF 데이터셋은 모든 모델을 합쳐 1.48억 개의 삼항관계를 포함한 165GB 이상의 RDF 데이터를 포함하며, 메타데이터를 포함하면 총 827억 개의 삼항관계에 이른다.
데이터셋에는 360만 개의 승인된 민감도와 5,000만 개의 후보 진술이 포함되어 있어 가용 지식의 범위가 크게 확장되었다.
다섯 가지 다른 재구성 모델의 사용은 실세계 환경에서의 유래 모델링 접근 방식을 비교 평가할 수 있도록 한다.
메타데이터가 풍부한 구조는 구성 요소 기여도, 신뢰도 점수, 규칙 사용 정보 등 민감도의 기원을 세밀하게 추적할 수 있도록 한다.
VoID 및 DCAT 메타데이터를 함께 제공하여 Linked Data 생태계 내에서의 검색 가능성과 상호운용성을 향상시켰다.
저자들은 향후 SPARQL 엔드포인트를 노출하고 해석 가능한 URI를 제공할 계획으로, 프로그래밍적 접근과 통합을 위한 데이터셋의 유용성을 높이고자 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.