「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
作業順の逆順で考える。
属性が分析の基準になるため、
新たな「列」をどう作るかが鍵。
ことで、
解明する。
| プロセス | 問題の特定 | ||
| 問題解決 | 定量分析 | 1 | 2 |
| 問題発見フェーズ | Step1:目的の明確化 | 比較軸を決める | 構造化 |
| Step2:仮説立案 | |||
| 解決策立案フェーズ | Step3:解析準備 | 比較条件を決める | |
| Step4:解析・検証 | |||
| 実行フェーズ | Step5:提言・実行 | ||
↓ 定量化 ↑ 意味合いの抽出 ≒ データの比較
変数の数
| 分析目的 | 分析手法 | |
| 予測 | 数値予測 | 回帰分析、決定木分析、DNN |
| 判別 | ロジスティック回帰分析、決定木分析、DNN | |
| 非予測 | 分類 | クラスタ分析 |
| 相関 | アソシエーション分析 | |
| 縮約 | 主成分分析、因子分析 | |
| 問題発見、問題認識(異常は発生していないか?) | 原因発見、解決策(ベストな選択はなにか?) | 効果の確認 | |
| 見える化 | ヒストグラム、時系列分析 | パレート図、散布図、クロス集計 | 層化 |
| 統計的手法 | (目的変数が質的データの場合、もしくは分類) 検定、判別分析、ロジスティック回帰分析、クラスタ分析 | (目的変数が量的データの場合、もしくは分類) 決定木分析、主成分分析、回帰分析・アソシエーション分析 | 検定 |
| 順位 | 手法 |
| 1 | クロス集計 |
| 2 | クラスタ分析 |
| 3 | 回帰分析 |
| 4 | 決定木分析 |
| 5 | 相関分析 |
| 6 | ロジスティック回帰分析 |
| 7 | 因子分析 |
| 8 | アソシエーション分析 |
| 9 | 判別分析 |
| 10 | 主成分分析 |
散布図 ─> 函数 ─> 回帰分析 ─┐
条件付き確率 ┬─> ベイズ法 ─┴─────┬─> 判別分析 ─> 機械学習
└─> アソシエーション分析 ─┘ (判別モデル)
↑
深層学習
を利用する
母集団から無作為抽出されたデータ(標本)から
母集団推定のために計算で生成される数字を表す。
上記を踏まえて解釈する。
| - | X | Y |
| 罹患率 | 0.1% | 80% |
| 致死率 | 50% | 0.001% |
| 罹患&致死率 | 0.05% | 0.0008% |
データ分析における順問題と逆問題
(定義は実際曖昧で、時代や学問分野によって異なることが多い。)
データ分析の手段と数学の間にある関係
| 分析の手段 | 関連する数学の例 |
| 可視化 | 確率分布、統計、集合論、線形代数、 行列(画像データ、文字データは行列で表せる) |
| 分類 | 群論、統計 |
| 予測 | 解析(フーリエ解析など)、確率、統計、 行列の固有値、微積分、セルオートマトン |
| 判別 | 代数、方程式論、アルゴリズム論 |
| 推論 | ベイズ推定、微積分 |
| トポロジカルデータ解析 | 幾何、トポロジー、多様体 |
| スパースモデリング | トポロジー、グラフ理論 |
想定外は予測しにくいため。
心理学要素が必要になることもあり、
画一化・標準化されたデータ分析を難しくしている。
簡単に言うと、
などを行う。
集計元のデータが連続尺度である場合は、
ヒストグラムなどを使用して
カテゴリ毎の分布を確認しても良い。
年代別来客数などを例に。
- どんな種類がある?
- 最も多い種類はどれ?
- 大半のサンプルはどこ?
- 最小値はどれぐらい?
- 最大値はどれぐらい?
- データ不備はある?
※ 余談:分母が同じで足して100%になる2つの比率は-1の相関になり意味がない。
名目値
= --------------
価格指数当月の値 = -------------- - 1 前年の同月の値・高度な方法:季節調整(季節変動を除去 )
時系列データ = 傾向・循環変動【TC】+ 変動の季節変動【S】+ 不規則変動【I】
※ 両標本に施策A/Bを適用する(A/B以外を混ぜない)ので、公平にするには、
両標本は全ての要因について同一である必要がある(→ ランダム・サンプリング)。
肝臓癌死亡率ワースト1からの脱却のPPDAC
<以下、一変量解析>
<以下、二変量解析>
データがどうやって生成されているのか、そのコンテクストやバイアスなどに注意を払うべき
計測単位が決まっていないため、計測する人の解釈やバイアスが入り込む。
全てのデータというのは実は加工されている。
と言った問題は、解決できない。
データに対する盲信は、そのデータに対する信用をも無くす。
xx学とか知らなくても、
表計算ソフトなどで取り敢えずできる系
≒統計学、データ分析の原点
最近流行りの機械学習・深層学習の基礎
Column 学校では学べないデジタル時代のデータ分析法
https://dcross.impress.co.jp/industry/column/column20170926-02/index.html