.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

なぜそのデータ(数字)なのか、

  • 物事を細かく解き開き、
  • 理論的に研究することで

原因を探ること。

定義

明確な定義はないが、なんとなく、

ビジネス インテリジェンス(BI)の、

の延長上のデータ分析がデータ解析と呼ばれている雰囲気がある。
(専門性の高めのデータマイニング(DM)手法は別に分類される事が多そう)

確証 / 探索

確証的データ解析

仮説を立てて、それを検証する。

探索的データ解析

データを見ながら、その意味を読み取ろうとする。

詳細

解析方法

クロス集計分析

判別分析

ロジスティック回帰分析

アソシエーション分析

相関関係と共起性を分析、出現確率を観察する手法

  • 一見関連性がなさそうでも、
    共起性(同時に起こる項目)を
    分析し隠れた関連性を発見する。
  • 目的と理論
    • 目的:予測、説明
    • 理論:集合理論
  • 感度分析
    共起性の評価指標には、以下のモノがある。
  • 支持度 (A)
    ・全体の中でAが起こる確率 =(Aの数)/(全データ数)
    ・比率が低ければ、共起性が高くても全体効果は小さい。
  • 確信度 (A ⇒ B)
    ・Aが起こったときにBも起こる確率 =(AかつBの数)/(A)
    ・比率が高ければ、共起傾向があるということを示す。
    ・ただ、AがBの部分集合の場合の確信度1は無意味。
  • リフト値 (A & B)
    ・単純にBが起こるのに比べ、Aが起こったときにBが起こる確率は何倍か?
     =(確信度)/(Bが起こる確率)=(AかつBの数)/(A))/((Bの数)/(全データ数))
    ・有効な共起を表す(0以上の値をとり、1より大きければ有効なルール)
    ・AがBの部分集合の場合でも有効(Aがどれぐらいの割合を占める部分集合か?)
  • データ
    ...
  • 計算方法
    ...

その他の統計解析の手法

可視化の方法

アドホック分析

ダッシュボード

モニタリング

  • 以下の様にモニタリングする。
    • 対象 : KPIなど。
    • 目的 : データドリブンな意思決定を行う。
    • 出力 : 月次レポートなど
    • 特徴 : 長期的なデータの推移を可視化、集計の条件の変更。

ツール

各種、可視化ツール

以下の様に分類可能

  • スプレッドシート
    大量のデータを扱えない。
    複雑なダッシュボードを作るのが難しい。
  • アドホック分析・ツール
    • Jupyter Notebook
      • 通常はローカル・ホストで起動するWebアプリケーション
      • PythonやRuby、R言語などのスクリプト言語を実行する。
      • Pandasでアドホック分析し、Matplotlibで可視化する。
  • ダッシュボード・ツール
    • Redash
      • Python製のダッシュボード・ツール
      • 多数のデータソースに対応
      • SQLクエリの実行結果を可視化
  • Superset
    • 対話的ダッシュボードを作るためのPython製のWebアプリケーション
    • 画面上でマウス操作によってグラフを作るのが基本
    • 時系列データに対応した列指向ストレージ(Druid)を標準でサポート
    • リアルタイムなダッシュボードを作る目的でよく利用される。
  • Kibana
    • バックエンドはElasticsearch一択になる。
    • 同様に、リアルタイムなダッシュボードを作る目的でよく利用される。

BIツール

対話的な(≒ アドホック分析できる)ダッシュボード


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2022-05-11 (水) 20:33:36 (709d)