「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。

-[[戻る>要素技術]]
-[[戻る>データ分析]]
--データ解析
--[[統計解析]]
--[[ベイズ統計]]

*目次 [#l1537ebc]
#contents

*概要 [#fab74aa5]
なぜそのデータ(数字)なのか、

-物事を細かく解き開き、
-理論的に研究することで

原因を探ること。

**確証的データ解析 [#mdebc5a6]
仮説を立てて、それを検証する。

**探索的データ 解析 [#hf37903c]
**探索的データ解析 [#hf37903c]
データを見ながら、その意味を読み取ろうとする。

*詳細 [#t9a000a2]

**解析方法 [#t25f60b2]

***クロス集計分析 [#hae158f2]
最も基本的なデータ分析方法で[[ビジネス インテリジェンス(BI)]]でも可能。
***[[クロス集計分析]] [#hae158f2]

-集まったデータを年齢、性別、地域、職業などのさまざまな属性別に集計
--2、3種類程度の複数の属性についての相関関係を分析
--属性ごとに大まかなトレンドを把握
***決定木分析 [#sa7c31e5]
-[[分類>#w121da97]]によって絞り込んでいく手法

-以下で利用される。
--アンケートの集計
--仕入れの計画
--販売予測
--世論調査
--[[分類>#w121da97]](仮説)を何回も繰り返し、~
その結果から何通りもの予測を行う。

-用語
--経過が樹木状に枝分かれしたモデル図になる。
---「回帰木」「分類木」「ディシジョンツリー」などとも呼ばれる。
---複雑かつ多様な要因を整理、要因や属性を分析、分岐毎の確率計算も可能。

--トランザクション・テーブル → クロス集計 → クロス・テーブル~
トランザクション・テーブルをクロス集計するとクロス・テーブルになる。
--以下で利用される。
---マーケティング
---リスク・マネジメント

--ルックアップテーブル~
SQLで言えばJOINに該当する表計算ソフトの機能。
-缶コーヒーの顧客像を分析する例~
○○缶コーヒーを選ぶ人(のクラスタ)
--毎日飲む人:全体のx%
--+年齢:全体のy%
--+性別:全体のz%

--ピボット・テーブル、ピボット・グラフ~
トランザクション・テーブルからクロス・テーブル(とグラフ)を~
生成する表計算ソフト(や、分析ライブラリ)の機能。~
SQLだと、RDBMSによってはPIVOT・UNPIVOT句などが用意されている。

---ピボット~
縦持ち → 横持ち。SQLだと、GROUP BYで縦軸を作成し、~
CASEとASを使い、列Xの値を列化し、必用なら列Yの値を集計。

---アン・ピボット~
横持ち → 縦持ち。SQLだと、上記のピボットの結果セットの~
当該列名を射影し、元の列名で値化、其々の列をUNIONする(集計していると戻せなくなる)

***ロジスティック回帰分析 [#f8862775]
ある事象の発生確率を予測する手法。

-[[重回帰分析>統計解析#na76c5ec]]と同じ複数の予測変数と一つの基準変数を取り扱うが、~
事象の有無がはっきりと決まる場合(基準変数が 0 or 1 の場合)に使う。

-ある質問に対する答えを「はい」または「いいえ」の形で集計
--結果は確率なので、0-1, (0-100%) の間の数値で表わされる。

-以下で利用される。
--病気の発生する確率の予測
--ターゲット顧客の商品購入率の予測

***アソシエーション分析 [#wec1e143]
相関関係を分析する手法
--病気の発生する確率の予測~
予測変数:アルコール摂取量と喫煙本数

-一見関連性がなさそうでも、
--共起性(同時に起こる項目)を分析し、隠れた関連性を発見する。
--...。
--ターゲット顧客の商品購入率の予測~
予測変数:職業・性別・趣味

-以下で利用される。
--マーケットバスケット分析(バスケット分析)
---実店舗とECサイトでの行動の違いを発見する。
---同時に購入されることが多いものを発見する。~
(レコメンドエンジンシステム)
-参考
--Excelの機能だけでロジスティック回帰分析を実行する方法 | ブログ | 統計WEB~
https://bellcurve.jp/statistics/blog/8607.html

***クラスター分析 [#w52da0b6]
いろいろな性質のものが混じり合って存在しているなかで、~
対象を類似性によりグループに分類し、その属性を分析する手法。
***アソシエーション分析 [#wec1e143]
相関関係を分析する手法

-作成したグループを「クラスタ」と言う。
--ポイントは、対象をどういう要因でグループに分類するか。
--表面に表れた事象や属性でクラスタに分け、その要因を分析します。
-一見関連性がなさそうでも、~
共起性(同時に起こる項目)を~
分析し隠れた関連性を発見する。

-以下で利用される。
--ユーザーのセグメント分析
--ブランディング(?)
--実店舗とECサイトでの行動の違いを発見する。
--[[マーケットバスケット分析(バスケット分析)>マーケティング#m3fee6ab]]~
同時に購入されることが多いものを発見する(おむつとビールの例)

***決定木分析 [#p582241e]
ひとつの原因をもとに、仮説を何回も繰り返し、その結果から何通りもの予測を行う手法。
***[[統計解析]] [#w121da97]
-分類
--[[クラスタ分析>統計解析#df844c06]]
--[[主成分分析>統計解析#f800acad]]

-仮説を繰り返すことで経過が樹木状に枝分かれしたモデル図になる。
--「回帰木」「分類木」「ディシジョンツリー」などとも呼ばれる。
--複雑かつ多様な要因を整理、要因や属性を分析、分岐毎の確率計算も可能。
-変数間の関係
--[[決定木分析>#sa7c31e5]]

-以下で利用される。
--マーケティング
--リスクマネジメント
**可視化の方法 [#edaac400]

***主成分分析 [#v062173b]
多次元のデータを次元圧縮(データは減らない)する方法

-座標で考えると,例えば3次元データを2次元データに要約(圧縮)するようなもの
-100次元から10次元への圧縮も可能(空間を面に、面を直線にと言うわけではない)。

**アドホック分析、ダッシュボード、モニタリング [#edaac400]

***アドホック分析 [#l43753a6]
-アドホック・クエリを投げるパワーユーザ的な人向け
-ツール~
[[アドホック分析・ツール>#s006468d]]の利用が適している。

***ダッシュボード [#xdaf8a56]
-定型レポートを参照するエンドユーザ的な人向け
-ツール~
[[ダッシュボード・ツール>#s006468d]]の利用が適している。

***モニタリング [#e02e4838]
-以下の様にモニタリングする。
--対象 : KPIなど。
--目的 : データドリブンな意思決定を行う。
--出力 : 月次レポートなど
--特徴 : 長期的なデータの推移を可視化、集計の条件の変更。

-ツール~
[[BIツール>#i37df7b9]]の利用が適している。

**ツール [#nf68b131]

***各種、可視化ツール [#s006468d]
以下の様に分類可能

-スプレッドシート~
大量のデータを扱えない。~
複雑なダッシュボードを作るのが難しい。

--Googleスプレッドシート
--Microsoft Excel
--[[Microsoft Excel>https://techinfoofmicrosofttech.osscons.jp/index.php?Excel%20%E3%83%94%E3%83%9C%E3%83%83%E3%83%88%E3%83%BB%E3%83%86%E3%83%BC%E3%83%96%E3%83%AB%E3%80%81%E3%83%94%E3%83%9C%E3%83%83%E3%83%88%E3%83%BB%E3%82%B0%E3%83%A9%E3%83%95]]

-アドホック分析・ツール
--Jupyter Notebook
--[[Jupyter Notebook]]
---通常はローカル・ホストで起動するWebアプリケーション
---PythonやRuby、R言語などのスクリプト言語を実行する。
---pandasでアドホック分析し、matplotlibで可視化する。


-ダッシュボード・ツール~
--Redash
---Python製のダッシュボード・ツール
---多数のデータソースに対応
---SQLクエリの実行結果を可視化

--Superset
---対話的ダッシュボードを作るためのPython製のWebアプリケーション
---画面上でマウス操作によってグラフを作るのが基本
---時系列データに対応した列指向ストレージ(Druid)を標準でサポート
---リアルタイムなダッシュボードを作る目的でよく利用される。

--[[Kibana>Elasticsearch#xdb2a250]]
---バックエンドは[[Elasticsearch]]一択になる。
---同様に、リアルタイムなダッシュボードを作る目的でよく利用される。

--[[BIツール>#i37df7b9]]~
対話的なダッシュボード
-[[BIツール>#i37df7b9]]~

***[[BIツール>ビジネス インテリジェンス(BI)#j255e469]] [#i37df7b9]
対話的な(≒ アドホック分析できる)ダッシュボード


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS