「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
ビッグデータの流れで遡って...。
用語 †
データウェアハウス(DWH) †
- 業務データを長期的に蓄積し管理したもの。
- 基幹系システムとは別に構築され、経営的意思決定のための
ビジネス インテリジェンス(BI)やデータマイニング等に利用される。
データ・クレンジング †
業務系のデータベースから抽出したデータをDWHに格納するために、
整合されたデータ属性やコード体系などに合うように変換及び修正を行う処理
データマート †
- DWHに保存されたデータの中から、
特定の部門やユーザの使用目的に応じて特定のデータを切り出し、
別のデータベースに整
理したもの。
- しかし、昨今のビッグデータのコンテキストでは、データパイプラインの末端に位置し、
MPPデータベース、インメモリ・データベースなどが利用されるようになってきている。
データレイク †
ビッグデータ → データレイク → (データクレンジング) → データウェアハウス(DWH) →(特定データ切出)→ データマート
オンライン分析処理(OLAP) †
エンドユーザが直接DWHを自由に検索し、
問題発見・解決するための、分析を主とした利用形態
多次元データベース †
- 多次元データベースは、多次元モデルのスター・スキーマ構造で構成される。
- データ自体を蓄積するファクト・テーブル(非正規化する)
- 分析軸を設定するディメンション・テーブル(高速化のためにキーや集計値以外はを追い出す)
- このようにして作成された多次元データを、OLAPキューブと呼ぶ。
- 多次元データを分析する。
- Multidimensional Expressions (MDX)でクエリを行う。
- クエリの結果セットのカラムは、以下の様に分類される。
- ディメンジョン:グループを表示する列
- メジャー:集計値を表示する列
データディスカバリ †
- DWHと組み合わせて利用されてきた経営者向けの可視化ツール・システム
- 対話的にデータを可視化することで価値ある情報を見つけようとするプロセス
データマイニング(DM) †
- 統計学、パターン認識、人工知能等のデータ解析の技法を
大量のデータに網羅的に適用することで知識を取り出す技術のこと。
詳細 †
オンライン分析処理(OLAP) †
- OLAP(Online Analytical Processing)
- RDBの生みの親でもある E.F.Codd 博士が生み出した言葉
「RDB は、基幹系処理を行うために理論化されたものであり、分析処理には向かない」
と言って、分析処理に関する OLAP を提唱したのが語源 参考:wikiペディア
ディメンションとメジャー †
- データセットの中に存在する属性か、計算した結果取得した派生属性のいずれか。
- データセットをそれぞれディメンションもしくはメジャーという概念として捉える。
- これらを組み合わせて使用してデータ集計することで、様々なデータビジュアライゼーションが可能となる。
- ディメンション
データをグループ化、分離、フィルタリングする、分析の切り口としての属性
- データ分析を行う際には、様々な切り口でデータを分割する。
- ディメンションの例として、都道府県別、月別、商品カテゴリ別などが挙げられる。
- 主に属性を使用するが、年代別などの数値範囲を使用することもできる。
- メジャー
分析の対象とする測定可能な数値属性(単純にディメンションの集計結果など)
- 「商品カテゴリ」ディメンションの場合、
- 「売上金額」を集計した「商品カテゴリ別売上金額」。
- 「決済数」を集計した「商品カテゴリ別決済数」。
- 「購買点数」を集計した「商品カテゴリ別購買点数」。
- 主に数値を使用するが、過去データと比較した上昇・維持・低下の評価属性もメジャー
機能の例(SQL Server †
リレーショナル データベースなどの外部データ ソースから、
集計したデータを含む多次元構造を設計、作成、および管理できる。
データ マイニング(DM) †
機能の例(SQL Server †
データ マイニング アプリケーション用に、さまざまな業界標準のデータ マイニング アルゴリズムを使用して、
外部データ ソースから構築するデータ マイニング モデルを設計、作成、およびビジュアル化できる。
BIツール †
概要 †
- 可視化に適したデータマートを作ってから読み込むことを前提とする。
- 古くは、OLAPキューブをソースとしていたが、最近は、
多次元データベース以外のデータベースが利用されるようになってきた。
分析方法 †
1つのデータを多角的に分析する
プロダクト †
参考 †