Skip to main content
QUICK REVIEW

[논문 리뷰] Optimizing Organizations for Navigating Data Lakes.

Fatemeh Nargesian, Ken Q. Pu|arXiv (Cornell University)|2018. 12. 17.
Data Quality and Management참고 문헌 39인용 수 2
한 줄 요약

이 논문은 표본 추출 기반 알고리즘을 사용하여 사용자 탐색 행동을 모델링함으로써, 탐색을 통해 테이블 발견을 향상시키는 그래프로 조직된 데이터 레이크 최적화를 위한 확률적 모델을 제안한다. 키워드 검색과 기존 분류 체계보다 발견률을 높이며, 사용자 연구 결과 탐색은 키워드 검색과 상호보완적임을 확인하였다.

ABSTRACT

We consider the problem of creating a navigation structure that allows a user to most effectively navigate a data lake. We define an organization as a graph that contains nodes representing sets of attributes within a data lake and edges indicating subset relationships among nodes. We present a new probabilistic model of how users interact with an organization and define the likelihood of a user finding a table using the organization. We propose the data lake organization problem as the problem of finding an organization that maximizes the expected probability of discovering tables by navigating an organization. We propose an approximate algorithm for the data lake organization problem. We show the effectiveness of the algorithm on both real data lakes containing data from open data portals and on benchmarks that emulate the observed characteristics of real data lakes. Through a formal user study, we show that navigation can help users discover relevant tables that cannot be found by keyword search. In addition, in our study, 42% of users preferred the use of navigation and 58% preferred keyword search, suggesting these are complementary and both useful modalities for data discovery in data lakes. Our experiments show that data lake organizations take into account the data lake distribution and outperform an existing hand-curated taxonomy and a common baseline organization.

연구 동기 및 목표

  • 비정형적이고 이질적인 데이터로 인해 효율적이지 못한 데이터 레이크 내 데이터 탐색 문제를 해결하기 위해.
  • 사용자 탐색 행동을 확률적 과정으로 모델링하여 테이블 발견 가능성 예측하기 위해.
  • 최적의 그래프 구조를 통해 모든 테이블에 대한 기대 발견 확률을 최대화하는 데이터 레이크 조직 문제를 수식화하기 위해.
  • 효과적인 탐색 조직을 구성하기 위한 근사 알고리즘 개발 및 평가하기 위해.
  • 실제 및 합성 데이터 레이크를 대상으로 키워드 검색 및 기존 분류 체계와의 비교를 통해 접근법의 실증적 검증 수행하기 위해.

제안 방법

  • 노드가 속성 집합이고 간선이 부분집합 관계를 나타내는 방향성 있는 비순환 그래프(DAG)로 데이터 레이크 조직을 표현하기 위해.
  • 조직 그래프 내 경로를 통해 테이블에 도달할 가능성의 정도를 추정하는 확률적 사용자 탐색 모델 정의하기 위해.
  • 모든 테이블에 대해 기대 발견 확률을 최대화하는 방식으로 데이터 레이크 조직 문제 수식화하기 위해.
  • 데이터 분포 및 사용자 행동 패턴을 기반으로 조직 그래프를 구성하기 위한 근사적 그레디 알고리즘 제안하기 위해.
  • 실제 오픈 데이터 포털의 데이터와 실제 데이터 레이크 특성을 반영한 합성 벤치마크를 사용하여 평가하기 위해.
  • 탐색과 키워드 검색 간의 테이블 탐색 효과성을 비교하기 위한 공식 사용자 연구 수행하기 위해.

실험 결과

연구 질문

  • RQ1그래프 기반 조직 구조가 데이터 레이크 내 관련 테이블을 발견할 확률을 향상시킬 수 있는가?
  • RQ2효과성과 사용자 선호도 측면에서 탐색 기반 탐색은 키워드 검색에 비해 어떻게 다른가?
  • RQ3제안된 조직 모델이 수작업으로 구성된 분류 체계와 기준 조직 방법에 비해 어느 정도 뛰어나게 성능을 발휘하는가?
  • RQ4알고리즘이 실제 데이터 레이크 분포에 잘 스케일링되고 적응 가능한가?

주요 결과

  • 키워드 검색만으로는 탐색에 비해 테이블 발견률이 유의미하게 높으며, 사용자 42%는 탐색을 선호하고 58%는 키워드 검색을 선호하여 상호보완적임을 확인하였다.
  • 제안된 알고리즘은 수작업으로 구성된 분류 체계와 일반 기준 조직 방식보다 기대 테이블 발견 확률 측면에서 뛰어난 성능을 보였다.
  • 이 방법은 데이터 레이크 분포 특성을 효과적으로 포착하여 더 효과적인 탐색 구조를 생성하였다.
  • 사용자 연구 결과 탐색은 키워드 검색만으로는 확보되지 않는 테이블을 발견하는 데 도움이 되는 것으로 확인되었다.
  • 알고리즘은 실제 데이터 레이크와 실제 데이터 레이크 성질을 모방한 합성 벤치마크 모두에서 견고한 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.