QUICK REVIEW

[論文レビュー] Detecting Quality Problems in Research Data: A Model-Driven Approach

Arno Kesper, Viola Wenz|arXiv (Cornell University)|Jan 1, 2020

Data Quality and Management参考文献 21被引用数 1

ひとこと要約

本稿では、特定のデータベース技術や形式に依存しない汎用的な分析パターンを定義することで、研究データの品質問題を検出するモデル駆動アプローチを提示する。この手法により、ドメイン専門家は抽象的なパターンを自身のデータに適合させることができ、データアナリストは得られた具体的なパターンを用いて重複、不整合、構造的欠陊などの問題を同定する。文化的遺産データベースにおいて、大規模なデータベースで20秒未塔の実行時間で85%の品質問題カバレッジを達成している。

ABSTRACT

As scientific progress highly depends on the quality of research data, there are strict requirements for data quality coming from the scientific community. A major challenge in data quality assurance is to localise quality problems that are inherent to data. Due to the dynamic digitalisation in specific scientific fields, especially the humanities, different database technologies and data formats may be used in rather short terms to gain experiences. We present a model-driven approach to analyse the quality of research data. It allows abstracting from the underlying database technology. Based on the observation that many quality problems show anti-patterns, a data engineer formulates analysis patterns that are generic concerning the database format and technology. A domain expert chooses a pattern that has been adapted to a specific database technology and concretises it for a domain-specific database format. The resulting concrete patterns are used by data analysts to locate quality problems in their databases. As proof of concept, we implemented tool support that realises this approach for XML databases. We evaluated our approach concerning expressiveness and performance in the domain of cultural heritage based on a qualitative study on quality problems occurring in cultural heritage data.

研究の動機と目的

デジタル・ヒューマニティーズのような動的に進化する分野における、研究データに内在する品質問題を検出する課題に対処すること。
下位のデータベース技術や形式に依存しない抽象化された手法を開発し、多様なシステム間で再利用可能であることを目指すこと。
重複、不整合、構造的欠陊などの品質問題を、パターンベースの分析により体系的かつ一貫して同定できるように、データアナリストを支援すること。
文化的遺産データを用いた実世界のデータを対象に、表現力とパフォーマンスの観点からアプローチを評価すること。

提案手法

本手法は、データベース技術や形式に依存しない、一般的なデータ品質問題向けの汎用的な分析パターン（アンチパターン）を定義する。
ドメイン専門家が、特定のデータ形式（例：XML）およびデータベース技術に適合するように、これらの抽象的パターンを具体化し、ドメイン固有の制約に合わせて調整する。
具体的なパターンは、Eclipse Modelling Frameworkを用いてXMLデータベース上で実行可能なXQueryに変換される。
本手法は、完全一致／近似一致の重複、冗長データ、意味的誤り、構造的不整合などの問題のパターンベース検出を支援する。
実データセット上でパターンの適用と実行を自動化するためのツール支援が実装されている。
本手法は、文化的遺産データベースを用いた定性的な研究とパフォーマンスベンチマークを用いて評価されている。

実験結果

リサーチクエスチョン

RQ1特定のデータベース技術や形式に依存しない方法で、研究データのデータ品質問題をどのようにモデル化できるか？
RQ2汎用的な分析パターンは、文化的遺産データベースにおける実世界のデータ品質問題をどの程度検出できるか？
RQ3大規模な研究データに対して適用された場合、パターンベースの検出手法はどの程度の効率性を示すか？
RQ4モデル駆動アプローチは、異なるデータ形式やデータベースシステム間で効果的に適合・再利用できるか？

主な発見

本手法は、文化的遺産データにおける同定されたデータ品質問題のバリエーションの85%をカバーし、高い表現力を持つことが実証された。
43のパターンのうち80%について、大規模なデータベース上でのクエリ実行が20秒未塔で完了したため、高いパフォーマンス効率が示された。
本手法は、完全一致および近似一致の重複、冗長データ、構造的不整合といった問題を、実世界のXMLデータベースで効果的に検出できた。
Eclipse Modelling Frameworkに基づくツール支援により、パターンを実行可能なXQueryにシームレスに変換できるようになった。
本手法は、MIDASおよびLIDOの両方のデータ形式に対し、異なるデータ形式に適応可能であることが実証された。
誤字や誤った意味的値は、パターンの表現力の制限によりカバーできなかったため、現在の研究ギャップを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。