「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。 -[[戻る>データ分析]] --データ解析 --[[統計解析]] --[[ベイズ統計]] *目次 [#l1537ebc] #contents *概要 [#fab74aa5] なぜそのデータ(数字)なのか、 -物事を細かく解き開き、 -理論的に研究することで 原因を探ること。 **定義 [#lca1fcd9] 明確な定義はないが、なんとなく、 [[ビジネス インテリジェンス(BI)]]の、 -[[データウェアハウス(DWH)>ビジネス インテリジェンス(BI)#f38a28c0]] -[[オンライン分析処理(OLAP)>ビジネス インテリジェンス(BI)#w08ddd0e]] -[[データマイニング(DM)>ビジネス インテリジェンス(BI)#ffd92f5f]] の延長上の[[データ分析]]がデータ解析と呼ばれている雰囲気がある。~ (専門性の高めの[[データマイニング(DM)>ビジネス インテリジェンス(BI)#ffd92f5f]]手法は別に分類される事が多そう) **確証 / 探索 [#u3af93e2] ***確証的データ解析 [#mdebc5a6] 仮説を立てて、それを検証する。 ***探索的データ解析 [#hf37903c] データを見ながら、その意味を読み取ろうとする。 *詳細 [#t9a000a2] **解析方法 [#t25f60b2] ***[[クロス集計分析]] [#hae158f2] ***[[判別分析>統計解析#ke57e386]] [#n7c121ec] ***[[ロジスティック回帰分析>統計解析#ge055200]] [#f8862775] ***アソシエーション分析 [#wec1e143] 相関関係と共起性を分析、出現確率を観察する手法 -一見関連性がなさそうでも、~ 共起性(同時に起こる項目)を~ 分析し隠れた関連性を発見する。 --以下で利用される。 ---実店舗とECサイトでの行動の違いを発見する。 ---[[マーケットバスケット分析(バスケット分析)>マーケティング#m3fee6ab]]~ 同時に購入されることが多いものを発見する(おむつとビールの例) --目的と理論 ---目的:予測、説明 ---理論:集合理論 --感度分析~ 共起性の評価指標には、以下のモノがある。 ---支持度 (A) ~ ・全体の中でAが起こる確率 =(Aの数)/(全データ数)~ ・比率が低ければ、共起性が高くても全体効果は小さい。 ---確信度 (A ⇒ B)~ ・Aが起こったときにBも起こる確率 =(AかつBの数)/(A)~ ・比率が高ければ、共起傾向があるということを示す。~ ・ただ、AがBの部分集合の場合の確信度1は無意味。 ---リフト値 (A & B) ~ ・単純にBが起こるのに比べ、Aが起こったときにBが起こる確率は何倍か?~ =(確信度)/(Bが起こる確率)=(AかつBの数)/(A))/((Bの数)/(全データ数))~ ・有効な共起を表す(0以上の値をとり、1より大きければ有効なルール)~ ・AがBの部分集合の場合でも有効(Aがどれぐらいの割合を占める部分集合か?) -データ~ ... -計算方法~ ... ***その他の[[統計解析]]の手法 [#w121da97] -[[回帰分析>統計解析#xc0279dd]] -特徴の分類 --[[クラスタ分析>統計解析#df844c06]] --[[主成分分析>統計解析#f800acad]] --[[因子分析>統計解析#c9b821dc]] -変数間の関係([[クロス集計>#hae158f2]]と同じ絞り込み --[[決定木分析>統計解析#lcaf7a28]] **可視化の方法 [#edaac400] ***アドホック分析 [#l43753a6] -アドホック・クエリを投げるパワーユーザ的な人向け -ツール~ [[アドホック分析・ツール>#s006468d]]の利用が適している。 ***ダッシュボード [#xdaf8a56] -定型レポートを参照するエンドユーザ的な人向け -ツール~ [[ダッシュボード・ツール>#s006468d]]の利用が適している。 ***モニタリング [#e02e4838] -以下の様にモニタリングする。 --対象 : KPIなど。 --目的 : データドリブンな意思決定を行う。 --出力 : 月次レポートなど --特徴 : 長期的なデータの推移を可視化、集計の条件の変更。 -ツール~ [[BIツール>#i37df7b9]]の利用が適している。 **ツール [#nf68b131] ***各種、可視化ツール [#s006468d] 以下の様に分類可能 -スプレッドシート~ 大量のデータを扱えない。~ 複雑なダッシュボードを作るのが難しい。 --Googleスプレッドシート --[[Microsoft Excel>https://techinfoofmicrosofttech.osscons.jp/index.php?Excel%20%E3%83%94%E3%83%9C%E3%83%83%E3%83%88%E3%83%BB%E3%83%86%E3%83%BC%E3%83%96%E3%83%AB%E3%80%81%E3%83%94%E3%83%9C%E3%83%83%E3%83%88%E3%83%BB%E3%82%B0%E3%83%A9%E3%83%95]] -アドホック分析・ツール --[[Jupyter Notebook]] ---通常はローカル・ホストで起動するWebアプリケーション ---[[Python]]やRuby、R言語などのスクリプト言語を実行する。 ---[[Pandas]]でアドホック分析し、[[Matplotlib]]で可視化する。 -ダッシュボード・ツール~ --Redash ---[[Python]]製のダッシュボード・ツール ---多数のデータソースに対応 ---SQLクエリの実行結果を可視化 --Superset ---対話的ダッシュボードを作るための[[Python]]製のWebアプリケーション ---画面上でマウス操作によってグラフを作るのが基本 ---時系列データに対応した列指向ストレージ(Druid)を標準でサポート ---リアルタイムなダッシュボードを作る目的でよく利用される。 --[[Kibana>Elasticsearch#xdb2a250]] ---バックエンドは[[Elasticsearch]]一択になる。 ---同様に、リアルタイムなダッシュボードを作る目的でよく利用される。 -[[BIツール>#i37df7b9]]~ ***[[BIツール>ビジネス インテリジェンス(BI)#j255e469]] [#i37df7b9] 対話的な(≒ アドホック分析できる)ダッシュボード