Skip to main content
QUICK REVIEW

[논문 리뷰] The CTU Prague Relational Learning Repository

Jan Motl, Oliver Schulte|arXiv (Cornell University)|2015. 11. 10.
Bioinformatics and Genomic Networks참고 문헌 1인용 수 30
한 줄 요약

CTU 프라하 관계학습 레포지터리(PRLR)는 기계학습 연구를 지원하기 위해 MySQL 서버에 호스팅된 50개의 공개 접근 가능한 다중관계형 SQL 데이터베이스를 제공한다. 이 레포지터리는 표준화된 메타데이터—예를 들어 테이블 수, 행 및 열 통계, 외래키 구조, 타겟 속성 등—를 제공하여 관계학습 분야에서 재현 가능한 벤치마킹을 가능하게 하며, Weka, RapidMiner, Alchemy 등의 도구로의 형식 변환 지원도 가능하다.

ABSTRACT

The aim of the Prague Relational Learning Repository is to support machine learning research with multi-relational data. The repository currently contains 148 SQL databases hosted on a public MySQL server located at https://relational.fel.cvut.cz. The server is provided by the Czech Technical University (CTU). A searchable meta-database provides metadata (e.g., the number of tables in the database, the number of rows and columns in the tables, the number of self-relationships).

연구 동기 및 목표

  • 다중관계형 기계학습을 위한 공유되고 표준화된 벤치마크 데이터셋의 부족을 해결하기 위해.
  • 실제 및 합성 관계형 데이터베이스를 제공하여 통계적-관계학습, 다중관계형 데이터 마이닝, 인덕티브 논리 프로그래밍 분야의 연구를 지원하기 위해.
  • 공통의 SQL 기반 데이터 형식을 통해 기계학습 및 데이터베이스 연구자 간의 교류를 촉진하기 위해.
  • 스키마 복잡성, 데이터 크기, 타겟 작업 정의 등의 구조화된 메타데이터를 제공하여 실험의 재현 가능성을 보장하기 위해.
  • 다양하고 생산 수준의 관계형 데이터셋을 무료로 읽기 전용으로 제공하여 연구자들이 접근 장벽을 낮추기 위해.

제안 방법

  • 연구자들이 읽기 전용으로 접근할 수 있도록 relational.fit.cvut.cz에 공개 MySQL 서버에 50개의 관계형 데이터베이스를 호스팅하기 위해.
  • R, Python, Weka, RapidMiner, ClowdFlows 등의 도구와의 광범위한 호환성을 확보하기 위해 표준 SQL 형식으로 데이터셋을 저장하기 위해.
  • 각 데이터셋에 대한 상세한 메타데이터를 캡처하기 위해 'meta'라는 이름의 메타데이터베이스 스키마를 구현하기 위해.
  • 행 수, 열 수, 외래키 제약 조건 등과 같은 메타데이터를 자동으로 추출하고 저장하기 위해.
  • MySQL 데이터를 Alchemy의 .db 형식 및 WILL과 같은 관계학습 도구에서 사용하는 형식으로 변환하는 스크립트를 제공하기 위해.
  • MySQL 덤프 업로드 또는 읽기 전용 공유를 통한 데이터셋 기여를 가능하게 하며, 웹 폼을 통한 제출 및 공개 연락처 채널을 제공하기 위해.

실험 결과

연구 질문

  • RQ1공동으로 접근 가능한, 공개된 레포지터리 형태의 다중관계형 데이터셋은 관계학습 연구의 재현 가능성과 진전을 어떻게 향상시킬 수 있는가?
  • RQ2다양한 데이터셋 간의 관계학습 알고리즘 선택 또는 평가에 있어 가장 유용한 메타데이터 특성은 무엇인가?
  • RQ3표준 SQL 데이터베이스가 기계학습 및 데이터베이스 연구자 간의 공동 연구를 위해 공통의 데이터 형식으로 얼마나 효과적으로 기능할 수 있는가?
  • RQ4외래키 복잡성, 루프 존재 여부, 복합키 유무 등의 관계형 스키마의 구조적 특성이 관계학습 알고리즘의 성능에 어떤 영향을 미치는가?
  • RQ5관계형 데이터셋 메타데이터의 중앙집중식 메타데이터베이스는 관계학습 방법의 체계적 벤치마킹 및 비교 분석을 지원할 수 있는가?

주요 결과

  • 레포지터리는 실존하는 데이터셋(예: IMDb, MovieLens, Lahman)과 합성 데이터셋(예: AdventureWorks, Northwind)을 포함한 총 50개의 관계형 데이터베이스를 호스팅하며, 다양한 스키마 복잡성과 데이터 유형을 제공한다.
  • 메타데이터베이스에서 제공하는 메타데이터에는 행 수(예: Employee 데이터베이스의 최대 280만 행), 테이블 수(예: MooneyFamily의 최대 72개 테이블), 크기(예: CCS 데이터베이스의 최대 658.4MB) 등의 상세 통계가 포함되어 있다.
  • 메타데이터베이스는 20개의 자기 참조 테이블을 가진 Dunur, 564,268행을 가진 LegalActs 데이터베이스, 32개 테이블을 가진 Mesh 데이터베이스 등의 구조적 메타데이터를 캡처한다.
  • 레포지터리는 분류 및 회귀 작업을 지원하며, 50개 데이터셋 중 49개에서 타겟 속성이 정의되어 있다. 이 중 14개 데이터셋은 클래스 레이블(예: Pima, Hepatitis)을 포함하고, 10개는 회귀 타겟(예: BasketballMen, CCS)을 포함한다.
  • 메타데이터베이스는 외래키 구조 정보를 포함하며, 예를 들어 AdventureWorks에는 71개의 테이블, Hockey 데이터베이스에는 23개의 테이블이 있으며, 모든 데이터베이스의 최소 1개 이상의 외래키 제약 조건이 존재한다.
  • 레포지터리는 형식 간 상호운용성을 지원하며, Alchemy, Aleph 및 기타 관계학습 도구에서 사용하는 형식으로 MySQL 데이터를 변환하는 스크립트를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.