「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
ビッグデータの流れで遡って...。
用語 †
データウェアハウス(DWH) †
- 業務データを長期的に蓄積し管理したもの。
- 基幹系システムとは別に構築され、経営的意思決定のための
ビジネス インテリジェンス(BI)やデータマイニング等に利用される。
オンライン分析処理(OLAP) †
エンドユーザが直接DWHを自由に検索し、
問題発見・解決するための、分析を主とした利用形態
多次元データベース †
- データ分析に特化したデータベースで、DWHのOLAPに用いられる。
- 多次元データベースは、スタースキーマ構造で構成される。
- 分析軸を設定する次元テーブル
- データ自体を蓄積するファクトテーブル
データクレンジング †
業務系のデータベースから抽出したデータをDWHに格納するために、
整合されたデータ属性やコード体系などに合うように変換及び修正を行う処理
データマート †
DWHに保存されたデータの中から、
特定の部門やユーザの使用目的に応じて特定のデータを切り出し、
別のデータベースに整理したもの。
データマイニング(DM) †
統計学、パターン認識、人工知能等のデータ解析の技法を
大量のデータに網羅的に適用することで知識を取り出す技術のこと。
詳細 †
オンライン分析処理(OLAP) †
- OLAP(Online Analytical Processing)
- RDBの生みの親でもある E.F.Codd 博士が生み出した言葉
「RDB は、基幹系処理を行うために理論化されたものであり、分析処理には向かない」
と言って、分析処理に関する OLAP を提唱したのが語源 参考:wikiペディア
ディメンションとメジャー †
- データセットの中に存在する属性か、計算した結果取得した派生属性のいずれか。
- データセットをそれぞれディメンションもしくはメジャーという概念として捉える。
- これらを組み合わせて使用してデータ集計することで、様々なデータビジュアライゼーションが可能となる。
- ディメンション
データをグループ化、分離、フィルタリングする、分析の切り口としての属性
- データ分析を行う際には、様々な切り口でデータを分割する。
- ディメンションの例として、都道府県別、月別、商品カテゴリ別などが挙げられる。
- 主に属性を使用するが、年代別などの数値範囲を使用することもできる。
- メジャー
分析の対象とする測定可能な数値属性(単純にディメンションの集計結果など)
- 「商品カテゴリ」ディメンションの場合、
- 「売上金額」を集計した「商品カテゴリ別売上金額」。
- 「決済数」を集計した「商品カテゴリ別決済数」。
- 「購買点数」を集計した「商品カテゴリ別購買点数」。
- 主に数値を使用するが、過去データと比較した上昇・維持・低下の評価属性もメジャー
解析手法 †
- スライシング
ファクトテーブルを二次元の表にする操作
(ある断面で切り取る)
- ダイシング
ファクトテーブルについて、スライシングの二次元の表の縦軸と横軸を
自由に指定する操作(サイコロを転がすように、観点を切替える操作)
- ドリルダウン・ロールアップ
- ドリルダウン
集計範囲を狭くする。
- ロールアップ
集計範囲を広くする。
機能の例(SQL Server †
リレーショナル データベースなどの外部データ ソースから、
集計したデータを含む多次元構造を設計、作成、および管理できる。
データ マイニング(DM) †
機能の例(SQL Server †
データ マイニング アプリケーション用に、さまざまな業界標準のデータ マイニング アルゴリズムを使用して、
外部データ ソースから構築するデータ マイニング モデルを設計、作成、およびビジュアル化できる。
参考 †