QUICK REVIEW

[論文レビュー] A Data Warehouse Design for a Typical University Information System

Youssef Bassil|arXiv (Cornell University)|Dec 10, 2012

Data Quality and Management参考文献 10被引用数 26

ひとこと要約

本論文は、大学の運用データベースを情報ウェアハウスに変換するための4段階のデータウェアハウス設計モデル—データ抽出、クリーニング、変換、インデックス化/ロード—を提案する。MS Access 2010で実装されたこのモデルにより、意思決定者がデータ分析、予測、データマイニングを実行し、高等教育機関における戦略的機関計画および実績評価を支援できる。

ABSTRACT

Presently, large enterprises rely on database systems to manage their data and information. These databases are useful for conducting daily business transactions. However, the tight competition in the marketplace has led to the concept of data mining in which data are analyzed to derive effective business strategies and discover better ways in carrying out business. In order to perform data mining, regular databases must be converted into what so called informational databases also known as data warehouse. This paper presents a design model for building data warehouse for a typical university information system. It is based on transforming an operational database into an informational warehouse useful for decision makers to conduct data analysis, predication, and forecasting. The proposed model is based on four stages of data migration: Data extraction, data cleansing, data transforming, and data indexing and loading. The complete system is implemented under MS Access 2010 and is meant to serve as a repository of data for data mining operations.

研究の動機と目的

大学の管理におけるデータドリブン意思決定の増大するニーズに対応すること。
運用データベースを分析用途に適した情報ウェアハウスに変換すること。
高等教育機関における予測、データマイニング、戦略的計画を支援すること。
MS Access 2010のようなアクセス可能なツールを用いた実用的で実装可能なデータウェアハウスモデルを提供すること。
大学の文脈において、構造的なETLプロセスを通じてデータ品質と一貫性を確保すること。

提案手法

提案されたモデルは4段階のETLパイプラインに従う：データ抽出、データクリーニング、データ変換、インデックス化/ロード。
データ抽出は、既存の大学のデータベースから運用データを取得することを含む。
データクリーニングは、一貫性の欠如、重複、およびNULL値を除去することで、データ品質を向上させる。
データ変換は、フォーマットの標準化と、分析に適した次元スキーマへのデータ集約を実施する。
インデックス化とロードは、クエリとレポートに最適化されたスター・スキーマ構造に変換済みデータを格納する。
システムは、バックエンドのデータベース管理システムとしてMicrosoft Access 2010を用いて実装されている。

実験結果

リサーチクエスチョン

RQ1運用大学データベースを、分析用途に効果的にデータウェアハウスに変換する方法は何か？
RQ2大学情報システムにおいて、データ品質と利用可能性を確保するために不可欠なETL段階は何か？
RQ3データウェアハウスは、高等教育分野における意思決定、予測、データマイニングをどのように支援できるか？
RQ4限られたリソースでデータウェアハウス開発を実現するための実用的実装アプローチは何か？
RQ5データクリーニングと変換は、大学データを分析用途に準備するために果たす役割は何か？

主な発見

提案された4段階ETLモデルは、生の運用データを構造的かつ分析可能なデータウェアハウス形式に効果的に変換した。
データクリーニングは、ウェアハウス内の不整合や誤りを著しく削減し、データ品質を向上させた。
MS Access 2010における実装は、ITインfraが限られた中小規模の大学においても実現可能であることを示した。
得られたデータウェアハウスは、複雑な分析クエリを処理でき、予測と戦略的意思決定を支援した。
スター・スキーマ設計により、学業成績および管理指標に関する効率的なクエリ処理とレポート作成が可能になった。
本モデルは、大学環境におけるデータウェアハウス開発の再利用可能なフレームワークを提供した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。