データベースを使って、データを分析するときにデータベースの中のデータが正確で、整理されている必要がある。
データベースのデータの種類も顧客データ、在庫データ、製品データなど多岐にわたり、データといっても、文字データや画像データ、時系列データなど様々である。
そのため最初に行うことは、データの確認整理である。
分析に際してデータが重複していたり、不正確なデータが多くあれば、正しい分析はできない。それらのデータをどうするかを決めて整理する必要がある。
この作業は事前作業として重要で、結果に大きく影響するのでまず行わなければならない。
ただ、分析の目的によってどのデータを削除してどのデータを生かすかの判断は変わるので、十分に検討してデータを確認し整理する必要がある。
【 メタデータ 】
データベースの定義情報やデータの属性、意味内容、取得先、データの記録方式・格納場所やインデックスの情報など、データベースを管理するための情報のこと。
【 データディクショナリ 】
データに関する情報(メタデータ)を収集・保管・提供するための仕組み。
【 リポジトリ 】
データベースでは、メタデータだけでなく、システムを構成するデータの所在、ファイルの仕様、プログラムとの連携など、システム全体にかかわるデータや情報なども保管・管理することが必要である。これらのデータを保管・管理するための仕組みをリポジトリという。
www.it-shikaku.jp