「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
ビッグデータの流れで遡って...。
用語 †
データウェアハウス(DWH) †
→ データレイク → (データクレンジング) → データウェアハウス(DWH) →(特定データ切出)→ データマート
- 従来のデータウェアハウス(DWH)は、
- 業務データを長期的に蓄積し管理したもの。
- 基幹系システムとは別に構築され、経営的意思決定のための
ビジネス インテリジェンス(BI)やデータマイニング等に利用される。
- しかし、昨今のビッグデータのコンテキストでは、以下のサポートに課題がある。
- 動画、⾳声、テキスト
- オープンなフォーマットでの格納
- ストリーミング処理
- データサイエンス、機械学習
データレイク †
- 特徴
- ⾮常に安価で、優れた耐久性をもつ。
“10 nines”の耐久性。安価。無限のスケーラビリティ。
- 多様な形式の⽣データを蓄積可能。
動画, ⾳声, テキスト, 構造化データ, ⾮構造化データ
- オープンで標準のフォーマット。
Parquetフォーマット, 多種多様なツールが対応可能な形式
- 課題
- データ処理・扱いに関する課題
- データを追加することが難しい。
新しいデータを追加すると正しくない読み取りが⾏われる。
- 既存データの変更が難しい。
GDPRなどの規制対応で既存データの細かな変更が必要。
- ジョブエラー時の対応が難しい。
半分のデータがデータレイクに追加され、残りが消えてしまう。
- ⼀貫性・データ管理に関する課題
- リアルタイム連携が難しい。
ストリーミングとバッチデータを混合すると⼀貫性が保てなくなる。
- データ履歴の管理が難しい。
規制対象システムの場合、再現性、監査、ガバナンスが必要。
- 巨⼤メタデータの扱いが難しい。
⼤規模なデータレイクではメタデータ⾃体が⼤量で管理が難しい。
- 処理性能・データ品質に関する課題
- “膨⼤なファイル”の扱いが難しい。
データレイクは数百万の⼩さなファイルの処理には適していない。
- 最⾼の処理性能担保が難しい。
性能改善のためにデータをパーティション化することなど変更が困難。
- データ品質の担保が難しい。
全てのデータが正確で⾼品質であることを保証することは、常に課題。
データ・クレンジング †
業務系のデータベースから抽出したデータをDWHに格納するために、
整合されたデータ属性やコード体系などに合うように変換及び修正を行う処理
特定データ切出 †
データマート †
- DWHに保存されたデータの中から、
特定の部門やユーザの使用目的に応じて特定のデータを切り出し、
別のデータベースに整理したもの。
などが利用されるようになってきている。
オンライン分析処理(OLAP) †
エンドユーザが直接DWHを自由に検索し、
問題発見・解決するための、分析を主とした利用形態
多次元データベース †
- 多次元データベースは、多次元モデルのスター・スキーマ構造で構成される。
- データ自体を蓄積するファクト・テーブル(非正規化する)
- 分析軸を設定するディメンション・テーブル(高速化のためにキーや集計値以外はを追い出す)
- このようにして作成された多次元データを、OLAPキューブと呼ぶ。
- 多次元データを分析する。
- Multidimensional Expressions (MDX)でクエリを行う。
- クエリの結果セットのカラムは、以下の様に分類される。
- ディメンジョン:グループを表示する列
- メジャー:集計値を表示する列
データディスカバリ †
- DWHと組み合わせて利用されてきた経営者向けの可視化ツール・システム
- 対話的にデータを可視化することで価値ある情報を見つけようとするプロセス
データマイニング(DM) †
- 統計学、パターン認識、人工知能等のデータ解析の技法を
大量のデータに網羅的に適用することで知識を取り出す技術のこと。
詳細 †
オンライン分析処理(OLAP) †
- OLAP(Online Analytical Processing)
- RDBの生みの親でもある E.F.Codd 博士が生み出した言葉
「RDB は、基幹系処理を行うために理論化されたものであり、分析処理には向かない」
と言って、分析処理に関する OLAP を提唱したのが語源 参考:wikiペディア
ディメンションとメジャー †
- データセットの中に存在する属性か、計算した結果取得した派生属性のいずれか。
- データセットをそれぞれディメンションもしくはメジャーという概念として捉える。
- これらを組み合わせて使用してデータ集計することで、様々なデータビジュアライゼーションが可能となる。
- ディメンション
データをグループ化、分離、フィルタリングする、分析の切り口としての属性
- データ分析を行う際には、様々な切り口でデータを分割する。
- ディメンションの例として、都道府県別、月別、商品カテゴリ別などが挙げられる。
- 主に属性を使用するが、年代別などの数値範囲を使用することもできる。
- メジャー
分析の対象とする測定可能な数値属性(単純にディメンションの集計結果など)
- 「商品カテゴリ」ディメンションの場合、
- 「売上金額」を集計した「商品カテゴリ別売上金額」。
- 「決済数」を集計した「商品カテゴリ別決済数」。
- 「購買点数」を集計した「商品カテゴリ別購買点数」。
- 主に数値を使用するが、過去データと比較した上昇・維持・低下の評価属性もメジャー
機能の例(SQL Server †
リレーショナル データベースなどの外部データ ソースから、
集計したデータを含む多次元構造を設計、作成、および管理できる。
データ マイニング(DM) †
機能の例(SQL Server †
データ マイニング アプリケーション用に、さまざまな業界標準のデータ マイニング アルゴリズムを使用して、
外部データ ソースから構築するデータ マイニング モデルを設計、作成、およびビジュアル化できる。
BIツール †
概要 †
- 可視化に適したデータマートを作ってから読み込むことを前提とする。
- 古くは、OLAPキューブをソースとしていたが、最近は、
多次元データベース以外のデータベースが利用されるようになってきた。
分析方法 †
1つのデータを多角的に分析する
プロダクト †
- Tableau
- QlikView?
- Power BI
- SAS Visual Analytics
- MotionBoard?(国産)
参考 †