.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

ビッグデータの流れで遡って...。

用語

データウェアハウス(DWH)

データレイク → (データクレンジング) → データウェアハウス(DWH) →(特定データ切出)→ データマート

  • 従来のデータウェアハウス(DWH)は、
    • 業務データを長期的に蓄積し管理したもの。
    • 基幹系システムとは別に構築され、経営的意思決定のための
      ビジネス インテリジェンス(BI)やデータマイニング等に利用される。
  • しかし、昨今のビッグデータのコンテキストでは、以下のサポートに課題がある。
    • 動画、⾳声、テキスト
    • オープンなフォーマットでの格納
    • ストリーミング処理
    • データサイエンス、機械学習

データレイク

  • 特徴
    • ⾮常に安価で、優れた耐久性をもつ。
      “10 nines”の耐久性。安価。無限のスケーラビリティ。
    • 多様な形式の⽣データを蓄積可能。
      動画, ⾳声, テキスト, 構造化データ, ⾮構造化データ
    • オープンで標準のフォーマット。
      Parquetフォーマット, 多種多様なツールが対応可能な形式
  • 課題
    • データ処理・扱いに関する課題
      • データを追加することが難しい。
        新しいデータを追加すると正しくない読み取りが⾏われる。
      • 既存データの変更が難しい。
        GDPRなどの規制対応で既存データの細かな変更が必要。
      • ジョブエラー時の対応が難しい。
        半分のデータがデータレイクに追加され、残りが消えてしまう。
  • ⼀貫性・データ管理に関する課題
    • リアルタイム連携が難しい。
      ストリーミングとバッチデータを混合すると⼀貫性が保てなくなる。
    • データ履歴の管理が難しい。
      規制対象システムの場合、再現性、監査、ガバナンスが必要。
    • 巨⼤メタデータの扱いが難しい。
      ⼤規模なデータレイクではメタデータ⾃体が⼤量で管理が難しい。
  • 処理性能・データ品質に関する課題
    • “膨⼤なファイル”の扱いが難しい。
      データレイクは数百万の⼩さなファイルの処理には適していない。
    • 最⾼の処理性能担保が難しい。
      性能改善のためにデータをパーティション化することなど変更が困難。
    • データ品質の担保が難しい。
      全てのデータが正確で⾼品質であることを保証することは、常に課題。

データ・クレンジング

業務系のデータベースから抽出したデータをDWHに格納するために、
整合されたデータ属性やコード体系などに合うように変換及び修正を行う処理

特定データ切出

データマート

  • DWHに保存されたデータの中から、
    特定の部門やユーザの使用目的に応じて特定のデータを切り出し、
    別のデータベースに整理したもの。

などが利用されるようになってきている。

オンライン分析処理(OLAP)

エンドユーザが直接DWHを自由に検索し、
問題発見・解決するための、分析を主とした利用形態

多次元データベース

  • データ分析に特化したデータベースで、OLAPDWHに用いられる。
  • 多次元データベースは、多次元モデルのスター・スキーマ構造で構成される。
    • データ自体を蓄積するファクト・テーブル(非正規化する)
    • 分析軸を設定するディメンション・テーブル(高速化のためにキーや集計値以外はを追い出す)
    • このようにして作成された多次元データを、OLAPキューブと呼ぶ。
  • 多次元データを分析する。
    • Multidimensional Expressions (MDX)でクエリを行う。
    • クエリの結果セットのカラムは、以下の様に分類される。
      • ディメンジョン:グループを表示する列
      • メジャー:集計値を表示する列

データディスカバリ

  • DWHと組み合わせて利用されてきた経営者向けの可視化ツール・システム
  • 対話的にデータを可視化することで価値ある情報を見つけようとするプロセス

データマイニング(DM)

  • 統計学、パターン認識、人工知能等のデータ解析の技法を
    大量のデータに網羅的に適用することで知識を取り出す技術のこと。

詳細

オンライン分析処理(OLAP)

  • OLAP(Online Analytical Processing)
  • RDBの生みの親でもある E.F.Codd 博士が生み出した言葉
    「RDB は、基幹系処理を行うために理論化されたものであり、分析処理には向かない」
    と言って、分析処理に関する OLAP を提唱したのが語源 参考:wikiペディア

ディメンションとメジャー

  • データセットの中に存在する属性か、計算した結果取得した派生属性のいずれか。
  • データセットをそれぞれディメンションもしくはメジャーという概念として捉える。
  • これらを組み合わせて使用してデータ集計することで、様々なデータビジュアライゼーションが可能となる。
  • ディメンション
    データをグループ化、分離、フィルタリングする、分析の切り口としての属性
    • データ分析を行う際には、様々な切り口でデータを分割する。
    • ディメンションの例として、都道府県別、月別、商品カテゴリ別などが挙げられる。
    • 主に属性を使用するが、年代別などの数値範囲を使用することもできる。
  • メジャー
    分析の対象とする測定可能な数値属性(単純にディメンションの集計結果など)
    • 「商品カテゴリ」ディメンションの場合、
      • 「売上金額」を集計した「商品カテゴリ別売上金額」。
      • 「決済数」を集計した「商品カテゴリ別決済数」。
      • 「購買点数」を集計した「商品カテゴリ別購買点数」。
    • 主に数値を使用するが、過去データと比較した上昇・維持・低下の評価属性もメジャー

解析手法

機能の例(SQL Server

リレーショナル データベースなどの外部データ ソースから、
集計したデータを含む多次元構造を設計、作成、および管理できる。

データ マイニング(DM)

データ解析

機能の例(SQL Server

データ マイニング アプリケーション用に、さまざまな業界標準のデータ マイニング アルゴリズムを使用して、
外部データ ソースから構築するデータ マイニング モデルを設計、作成、およびビジュアル化できる。

BIツール

概要

  • 可視化に適したデータマートを作ってから読み込むことを前提とする。
  • 古くは、OLAPキューブをソースとしていたが、最近は、
    多次元データベース以外のデータベースが利用されるようになってきた。
    • MPPデータベース
    • インメモリ・データベース

分析方法

1つのデータを多角的に分析する

  • 全体を俯瞰
  • KPIを一覧
  • 対話的に条件を変更

プロダクト

  • Tableau
  • QlikView?
  • Power BI
  • SAS Visual Analytics
  • MotionBoard?(国産)

参考


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-11-29 (日) 18:29:12 (244d)