「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
属性が分析の基準になるため、新たな「列」をどう作るかが鍵。
ことで、
解明する。
分析の目的 | 分析手法 |
分類 | クラスタ分析、主成分分析、因子分析 |
絞り込み | クロス集計、決定木分析 |
関係の強弱を知る | 相関分析 |
影響度を測る | ロジスティック回帰分析、(重)回帰分析 |
先読み | 判別分析、MT法 |
検証 | A/Bテスト、コホート研究、ケースコントロール法 |
推論 | ベイズ推定 |
空間把握 | トポロジカルデータ解析、スパースモデリング |
非構造化 | テキストマイニング(形態素解析、アソシエーション分析) |
順位 | 手法 |
1 | クロス集計 |
2 | クラスタ分析 |
3 | 回帰分析 |
4 | 決定木分析 |
5 | 相関分析 |
6 | ロジスティック回帰分析 |
7 | 因子分析 |
8 | アソシエーション分析 |
9 | 判別分析 |
10 | 主成分分析 |
多くの目的に有効な3つのパターン。
を利用する
上記を踏まえて解釈する。
- | X | Y |
罹患率 | 0.1% | 80% |
致死率 | 50% | 0.001% |
罹患&致死率 | 0.05% | 0.0008% |
簡単に言うと、
などを行う。
集計元のデータが連続尺度である場合は、
カテゴリ毎の分布を確認しても良い。
年代別来客数などを例に。
- どんな種類がある?
- 最も多い種類はどれ?
- 大半のサンプルはどこ?
- 最小値はどれぐらい?
- 最大値はどれぐらい?
- データ不備はある?
※ 余談:分母が同じで足して100%になる2つの比率は-1の相関になり意味がない。
名目値 = -------------- 価格指数
当月の値 = -------------- - 1 前年の同月の値・高度な方法:季節調整(季節変動を除去 )
時系列データ = 傾向・循環変動【TC】+ 変動の季節変動【S】+ 不規則変動【I】
※ 両標本に施策A/Bを適用する(A/B以外を混ぜない)ので、公平にするには、
両標本は全ての要因について同一である必要がある(→ ランダム・サンプリング)。
肝臓癌死亡率ワースト1からの脱却のPPDAC
xx学とか知らなくても、
表計算ソフトなどで取り敢えずできる系
≒統計学、データ分析の原点
最近流行りの機械学習・深層学習の基礎
Column 学校では学べないデジタル時代のデータ分析法
https://dcross.impress.co.jp/industry/column/column20170926-02/index.html