「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
なぜそのデータ(数字)なのか、
原因を探ること。
定義 †
明確な定義はないが、なんとなく、
ビジネス インテリジェンス(BI)の、
の延長上のデータ分析がデータ解析と呼ばれている雰囲気がある。
(専門性の高めのデータマイニング(DM)手法は別に分類される事が多そう)
確証 / 探索 †
確証的データ解析 †
仮説を立てて、それを検証する。
探索的データ解析 †
データを見ながら、その意味を読み取ろうとする。
詳細 †
解析方法 †
アソシエーション分析 †
相関関係と共起性を分析、出現確率を観察する手法
- 一見関連性がなさそうでも、
共起性(同時に起こる項目)を
分析し隠れた関連性を発見する。
- 感度分析
共起性の評価指標には、以下のモノがある。
- 支持度 (A)
・全体の中でAが起こる確率 =(Aの数)/(全データ数)
・比率が低ければ、共起性が高くても全体効果は小さい。
- 確信度 (A ⇒ B)
・Aが起こったときにBも起こる確率 =(AかつBの数)/(A)
・比率が高ければ、共起傾向があるということを示す。
・ただ、AがBの部分集合の場合の確信度1は無意味。
- リフト値 (A & B)
・単純にBが起こるのに比べ、Aが起こったときにBが起こる確率は何倍か?
=(確信度)/(Bが起こる確率)=(AかつBの数)/(A))/((Bの数)/(全データ数))
・有効な共起を表す(0以上の値をとり、1より大きければ有効なルール)
・AがBの部分集合の場合でも有効(Aがどれぐらいの割合を占める部分集合か?)
可視化の方法 †
アドホック分析 †
ダッシュボード †
モニタリング †
- 以下の様にモニタリングする。
- 対象 : KPIなど。
- 目的 : データドリブンな意思決定を行う。
- 出力 : 月次レポートなど
- 特徴 : 長期的なデータの推移を可視化、集計の条件の変更。
ツール †
各種、可視化ツール †
以下の様に分類可能
- スプレッドシート
大量のデータを扱えない。
複雑なダッシュボードを作るのが難しい。
- ダッシュボード・ツール
- Redash
- Python製のダッシュボード・ツール
- 多数のデータソースに対応
- SQLクエリの実行結果を可視化
- Superset
- 対話的ダッシュボードを作るためのPython製のWebアプリケーション
- 画面上でマウス操作によってグラフを作るのが基本
- 時系列データに対応した列指向ストレージ(Druid)を標準でサポート
- リアルタイムなダッシュボードを作る目的でよく利用される。
対話的な(≒ アドホック分析できる)ダッシュボード