.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

分析の基本

考える順序

作業順の逆順で考える。

  1. 結果の想定
    (↓そのタメに必要なモノ↓)
  2. 必要な図表の想定
    (↓そのタメに必要なモノ↓)
  3. 必要なデータの集計の想定
    (↓そのタメに必要なモノ↓)
  4. 必要なデータの収集の想定

属性を見出す

属性が分析の基準になるため、新たな「列」をどう作るかが鍵。

関係性を見出す

ことで、

解明する。

関係性パターン

変数の尺度

名義尺度(質的データ)

連続尺度(量的データ)

上記以外の分類

解明の仕方

要因の状況把握

要因と結果の関係

複数要因の関係

詳細

分析手法

可視化・分類・予測

分析の目的で分類

分析のプロセスで分類

問題発見、問題認識(≒逆問題的)原因発見、解決策(≒順問題的)効果の確認
見える化ヒストグラム時系列分析パレート図散布図クロス集計層化
統計的手法検定、判別分析、ロジスティック回帰分析、k-means法決定木分析主成分分析 / クラスター分析回帰分析アソシエーション分析検定

変数の数や尺度で分類

変数の数

その他、利用頻度、関連

ツール

可視化・代表値

可視化

を利用する

代表値

その他

分類予測

分類

予測

結果の報告

記述/可視化方法

解釈の注意点

上記を踏まえて解釈する。

分析の発展

順問題と逆問題

データ分析における順問題と逆問題
(定義は実際曖昧で、時代や学問分野によって異なることが多い。)

データ分析と数学

データ分析の手段と数学の間にある関係

分析の手段関連する数学の例
可視化確率分布、統計、集合論、線形代数、
行列(画像データ、文字データは行列で表せる)
分類群論、統計
予測解析(フーリエ解析など)、確率、統計、
行列の固有値、微積分、セルオートマトン
判別代数、方程式論、アルゴリズム論
推論ベイズ推定、微積分
トポロジカルデータ解析幾何、トポロジー、多様体
スパースモデリングトポロジー、グラフ理論

数理モデル

想定外の軽減

想定外は予測しにくいため。

心理学要素

心理学要素が必要になることもあり、
画一化・標準化されたデータ分析を難しくしている。

人の行動・感情(非構造化データ

モデルとシミュレーション

ビッグデータの法則

活用

パターン

クロス集計を用いて離散分布を比較

簡単に言うと、

などを行う。

集計元のデータが連続尺度である場合は、

ヒストグラムなどを使用して

カテゴリ毎の分布を確認しても良い。

ヒストグラムを用いて連続分布を比較

年代別来客数などを例に。

散布図で傾向を見たり予測をしたり。

時系列等で傾向を見たり予測をしたり。

※ 余談:分母が同じで足して100%になる2つの比率は-1の相関になり意味がない。

ビジネス上での事例

A / Bテスト

※ 両標本に施策A/Bを適用する(A/B以外を混ぜない)ので、公平にするには、
  両標本は全ての要因について同一である必要がある(→ ランダム・サンプリング)。

アンケート

肝臓癌死亡率ワースト1からの脱却のPPDAC

QC手法の適用

以下、一変量解析

以下、二変量解析

データ解析

統計解析

ビッグデータ

コンテクストやバイアス

データがどうやって生成されているのか、そのコンテクストやバイアスなどに注意を払うべき

社会科学データには主観が入り込みやすい

計測単位が決まっていないため、計測する人の解釈やバイアスが入り込む。

全てのデータは加工済み

全てのデータというのは実は加工されている。

データは集めた人の声を代弁する

と言った問題は、解決できない。

データは人間の衝突を解決しない

データに対する盲信は、そのデータに対する信用をも無くす。

参考

データ分析

データ解析

xx学とか知らなくても、
表計算ソフトなどで取り敢えずできる系

統計解析

≒統計学、データ分析の原点

ベイズ統計

最近流行りの機械学習・深層学習の基礎

非構造化データ処理

言語処理

音声処理

画像処理

データサイエンティスト協会

gacco

総務省

DIGITAL X

Column 学校では学べないデジタル時代のデータ分析法
https://dcross.impress.co.jp/industry/column/column20170926-02/index.html

Qiita

統計解析

ベイズ統計


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS