「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
作業順の逆順で考える。
属性が分析の基準になるため、
新たな「列」をどう作るかが鍵。
ことで、
解明する。
プロセス | 問題の特定 | ||
問題解決 | 定量分析 | 1 | 2 |
問題発見フェーズ | Step1:目的の明確化 | 比較軸を決める | 構造化 |
Step2:仮説立案 | |||
解決策立案フェーズ | Step3:解析準備 | 比較条件を決める | |
Step4:解析・検証 | |||
実行フェーズ | Step5:提言・実行 |
↓ 定量化 ↑ 意味合いの抽出 ≒ データの比較
変数の数
分析目的 | 分析手法 | |
予測 | 数値予測 | 回帰分析、決定木分析、DNN |
判別 | ロジスティック回帰分析、決定木分析、DNN | |
非予測 | 分類 | クラスタ分析 |
相関 | アソシエーション分析 | |
縮約 | 主成分分析、因子分析 |
問題発見、問題認識(異常は発生していないか?) | 原因発見、解決策(ベストな選択はなにか?) | 効果の確認 | |
見える化 | ヒストグラム、時系列分析 | パレート図、散布図、クロス集計 | 層化 |
統計的手法 | (目的変数が質的データの場合、もしくは分類) 検定、判別分析、ロジスティック回帰分析、クラスタ分析 | (目的変数が量的データの場合、もしくは分類) 決定木分析、主成分分析、回帰分析・アソシエーション分析 | 検定 |
順位 | 手法 |
1 | クロス集計 |
2 | クラスタ分析 |
3 | 回帰分析 |
4 | 決定木分析 |
5 | 相関分析 |
6 | ロジスティック回帰分析 |
7 | 因子分析 |
8 | アソシエーション分析 |
9 | 判別分析 |
10 | 主成分分析 |
散布図 ─> 函数 ─> 回帰分析 ─┐ 条件付き確率 ┬─> ベイズ法 ─┴─────┬─> 判別分析 ─> 機械学習 └─> アソシエーション分析 ─┘ (判別モデル) ↑ 深層学習
を利用する
母集団から無作為抽出されたデータ(標本)から
母集団推定のために計算で生成される数字を表す。
上記を踏まえて解釈する。
- | X | Y |
罹患率 | 0.1% | 80% |
致死率 | 50% | 0.001% |
罹患&致死率 | 0.05% | 0.0008% |
データ分析における順問題と逆問題
(定義は実際曖昧で、時代や学問分野によって異なることが多い。)
データ分析の手段と数学の間にある関係
分析の手段 | 関連する数学の例 |
可視化 | 確率分布、統計、集合論、線形代数、 行列(画像データ、文字データは行列で表せる) |
分類 | 群論、統計 |
予測 | 解析(フーリエ解析など)、確率、統計、 行列の固有値、微積分、セルオートマトン |
判別 | 代数、方程式論、アルゴリズム論 |
推論 | ベイズ推定、微積分 |
トポロジカルデータ解析 | 幾何、トポロジー、多様体 |
スパースモデリング | トポロジー、グラフ理論 |
想定外は予測しにくいため。
心理学要素が必要になることもあり、
画一化・標準化されたデータ分析を難しくしている。
簡単に言うと、
などを行う。
集計元のデータが連続尺度である場合は、
ヒストグラムなどを使用して
カテゴリ毎の分布を確認しても良い。
年代別来客数などを例に。
- どんな種類がある?
- 最も多い種類はどれ?
- 大半のサンプルはどこ?
- 最小値はどれぐらい?
- 最大値はどれぐらい?
- データ不備はある?
※ 余談:分母が同じで足して100%になる2つの比率は-1の相関になり意味がない。
名目値 = -------------- 価格指数
当月の値 = -------------- - 1 前年の同月の値・高度な方法:季節調整(季節変動を除去 )
時系列データ = 傾向・循環変動【TC】+ 変動の季節変動【S】+ 不規則変動【I】
※ 両標本に施策A/Bを適用する(A/B以外を混ぜない)ので、公平にするには、
両標本は全ての要因について同一である必要がある(→ ランダム・サンプリング)。
肝臓癌死亡率ワースト1からの脱却のPPDAC
<以下、一変量解析>
<以下、二変量解析>
データがどうやって生成されているのか、そのコンテクストやバイアスなどに注意を払うべき
計測単位が決まっていないため、計測する人の解釈やバイアスが入り込む。
全てのデータというのは実は加工されている。
と言った問題は、解決できない。
データに対する盲信は、そのデータに対する信用をも無くす。
xx学とか知らなくても、
表計算ソフトなどで取り敢えずできる系
≒統計学、データ分析の原点
最近流行りの機械学習・深層学習の基礎
Column 学校では学べないデジタル時代のデータ分析法
https://dcross.impress.co.jp/industry/column/column20170926-02/index.html