.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

ビッグデータの流れで遡って...。

用語

データウェアハウス(DWH)

  • 業務データを長期的に蓄積し管理したもの。
  • 基幹系システムとは別に構築され、経営的意思決定のための
    ビジネス インテリジェンス(BI)やデータマイニング等に利用される。

データクレンジング

業務系のデータベースから抽出したデータをDWHに格納するために、
整合されたデータ属性やコード体系などに合うように変換及び修正を行う処理

データマート

  • DWHに保存されたデータの中から、
    特定の部門やユーザの使用目的に応じて特定のデータを切り出し、
    別のデータベースに整理したもの。
  • しかし、昨今のビッグデータのコンテキストでは、データパイプラインの末端に位置し、
    MPPデータベース、インメモリ・データベースなどが利用されるようになってきている。

オンライン分析処理(OLAP)

エンドユーザが直接DWHを自由に検索し、
問題発見・解決するための、分析を主とした利用形態

多次元データベース

  • データ分析に特化したデータベースで、OLAPのDWHに用いられる。
  • 多次元データベースは、多次元モデルのスター・スキーマ構造で構成される。
    • データ自体を蓄積するファクト・テーブル(非正規化する)
    • 分析軸を設定するディメンション・テーブル(高速化のためにキーや集計値以外はを追い出す)
    • このようにして作成された多次元データを、OLAPキューブと呼ぶ。
  • 多次元データを分析する。
    • Multidimensional Expressions (MDX)でクエリを行う。
    • クエリの結果セットのカラムは、以下の様に分類される。
      • ディメンジョン:グループを表示する列
      • メジャー:集計値を表示する列

データディスカバリ

  • DWHと組み合わせて利用されてきた経営者向けの可視化ツール・システム
  • 対話的にデータを可視化することで価値ある情報を見つけようとするプロセス

データマイニング(DM)

統計学、パターン認識、人工知能等のデータ解析の技法を
大量のデータに網羅的に適用することで知識を取り出す技術のこと。

詳細

オンライン分析処理(OLAP)

  • OLAP(Online Analytical Processing)
  • RDBの生みの親でもある E.F.Codd 博士が生み出した言葉
    「RDB は、基幹系処理を行うために理論化されたものであり、分析処理には向かない」
    と言って、分析処理に関する OLAP を提唱したのが語源 参考:wikiペディア

ディメンションとメジャー

  • データセットの中に存在する属性か、計算した結果取得した派生属性のいずれか。
  • データセットをそれぞれディメンションもしくはメジャーという概念として捉える。
  • これらを組み合わせて使用してデータ集計することで、様々なデータビジュアライゼーションが可能となる。
  • ディメンション
    データをグループ化、分離、フィルタリングする、分析の切り口としての属性
    • データ分析を行う際には、様々な切り口でデータを分割する。
    • ディメンションの例として、都道府県別、月別、商品カテゴリ別などが挙げられる。
    • 主に属性を使用するが、年代別などの数値範囲を使用することもできる。
  • メジャー
    分析の対象とする測定可能な数値属性(単純にディメンションの集計結果など)
    • 「商品カテゴリ」ディメンションの場合、
      • 「売上金額」を集計した「商品カテゴリ別売上金額」。
      • 「決済数」を集計した「商品カテゴリ別決済数」。
      • 「購買点数」を集計した「商品カテゴリ別購買点数」。
    • 主に数値を使用するが、過去データと比較した上昇・維持・低下の評価属性もメジャー

解析手法

  • スライシング
    ファクトテーブルを二次元の表にする操作 (ある断面で切り取る)
  • ダイシング
    ファクトテーブルについて、スライシングの二次元の表の縦軸と横軸を
    自由に指定する操作(サイコロを転がすように、観点を切替える操作)
  • ドリルダウン・ロールアップ
    • ドリルダウン
      集計範囲を狭くする。
    • ロールアップ
      集計範囲を広くする。

機能の例(SQL Server

リレーショナル データベースなどの外部データ ソースから、
集計したデータを含む多次元構造を設計、作成、および管理できる。

データ マイニング(DM)

データ解析

機能の例(SQL Server

データ マイニング アプリケーション用に、さまざまな業界標準のデータ マイニング アルゴリズムを使用して、
外部データ ソースから構築するデータ マイニング モデルを設計、作成、およびビジュアル化できる。

BIツール

概要

  • 可視化に適したデータマートを作ってから読み込むことを前提とする。
  • 古くは、OLAPキューブをソースとしていたが、最近は、
    多次元データベース以外のデータベースが利用されるようになってきた。
    • MPPデータベース
    • インメモリ・データベース

分析方法

  • 1つのデータを多角的に分析する
    • 全体を俯瞰
    • KPIを一覧
    • 対話的に条件を変更

プロダクト

  • Tableau
  • QlikView?
  • PowerBI
  • MotionBoard?(国産)

参考


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2019-05-21 (火) 21:26:01 (60d)