.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

分類

統計学は以下に分類できる。

記述統計

データを集計する手法を学ぶ学問、データの特徴を表現(推測統計の基礎)

※ 全数調査が前提

推測統計

限られた標本から調査したい母集団全体の特徴を推測するという学問

ベイズ統計

モデル

データとモデルが問題解決の両輪で、
データとモデルの解釈が重要になる。

統計モデル

統計モデル(非決定論的モデル

ベイズモデル

統計モデルのパラダイムシフト

AIのモデル

学習によって推論モデルを構築する。

統計表

基本的な表

度数分布表

ヒストグラム

パレート図

散布図

時間を含む場合に使用する表

パネルデータ

クロスセクションデータ

時系列データ

分布

平均値からの散らばり

分布を指標化した数値

図表

分散

標準偏差

偏差値

偏差値 = 50 + 標準偏差 * 10

※ ばらつきが小さいテストで高得点だと高くなる。

分布の形

確率分布

離散分布

0 でない確率をとる確率変数値が高々可算個である確率の分布。

連続分布

連続的な値の分布であり、ある範囲の値が起こる確率の分布

正規分布(ガウス分布)

標準正規分布

多変量正規分布

二項分布

反復試行の確率分布

ポアソン分布

対数正規分布

一様分布

べき分布

ベータ分布

連続確率分布(絶対連続分布)で、
第1種ベータ分布および第2種ベータ分布がある。

ガンマ分布

連続確率分布の一種(絶対連続分布)、
形状母数 k、尺度母数 θ の2つの母数で特徴づけられる。

三角分布

ワイブル分布

機械や物体が壊れる、劣化するといった現象になる確率を示す。

バスタブ曲線

時間が経過することによって起こってくる機械や装置の故障の割合の
変化をしめすグラフのうち、その形が浴槽の形に似ている曲線。

OC曲線

製品の製造過程などで抜き取り検査を行う際に、
製造ロットの不良率と検査合格率の関係を表したグラフ。

ベルヌーイ分布

マルチヌーイ分布

(カテゴリ分布)

とすればXはマルチヌーイ分布に従う。

t分布

標本数が十分に多ければ正規分布が期待できる標本でも、
標本数が少ない場合は正規分布よりも分散が大きくなる。

X^2分布

F分布

カイ二乗(X^2)分布と同様に、
サンプル数が少ないほど、指数関数的な分布になる。

標本分布

統計数値の精度を知るなど。

期待値

標準誤差率

標本分布の標準偏差を標準誤差と言う。

信頼率(危険率)

信頼区間

※ 平方根(√)は 値^0.5 で計算可能。

サンプルサイズ

一般的にサンプルサイズは標準誤差信頼区間から逆算して求める。

変数間の関係

回帰分析

線形単回帰・重回帰分析

説明変数の数により以下に分けられる。

回帰係数、偏回帰係数

P値(有意確率)

多項式回帰(非線形性の導入

2変数間の関係

二変量解析(y = f(x))

相関分析

線形単回帰分析

3つ以上の変数間の関係

多変量解析(y = f(x1, x2, x3, ... ))

線形重回帰分析

数量化理論Ⅰ類

判別分析

最も当てハマるカテゴリ(ある事象の発生)を予測

多項式回帰

正則化回帰

ロジスティック回帰分析

2値分類の確率を予測(回帰とあるが分類

サポートベクターマシン

(SVM)

決定木分析

事前検知、要因分析

近傍法

特徴の分類

機械学習

特徴の分類

主成分分析

(Principal Component Analysis、PCA)

情報集約(次元削減の最も簡単な手法)。

因子分析

クラスタ分析

データの特性から似ているデータ同士をグループ化し、
いくつかのクラスタ(集団を意味)に分類する分析(グループ分け、特徴抽出)。

階層型

非階層型

k平均法

以下、非階層型のクラスタ分析のk平均法(k-means clustering)を扱う。

予測モデル

プロセス

線形単回帰モデル

線形単回帰分析のモデル。

回帰式

線形データを直線で近似

残差:

予測した値と実際の値との差

残差平方和:

残差分散:

決定係数(R2乗値)

計算方法

重回帰モデル

線形データを直線で近似

...モデル

色々あるらしい。

過学習

確率と検定

区間推定

仮説検定

検定(仮説検定、統計的仮説検定)

概要

となってしまう。

手順

検定手法

分類

名義尺度のデータ正規分布しない正規分布する
1変数X^2検定Kolmogorov-Smirnovの1試料検定z検定/t検定
2変数独立X^2検定Mann-WhitneyのU検定t検定
対応McNema?の検定Wilcoxonの符号付き順位和検定t検定
多変数独立X^2検定Kruskal-Wallisの検定F検定
対応CochranのQ検定Friedmannの検定F検定

t検定

群間差と個体差により事象に違いがあるか統計的観点から示す。

※ 平方根(√)は 値^0.5 で計算可能。

X^2検定

期待値と実測値により事象に違いがあるか統計的観点から示す。

F検定

に分解し、要因の効果を判定する分析。

と言える。

活用

政府統計

一次統計と二次統計

統計局で作成している統計

e-Stat 政府統計の総合窓口

https://www.e-stat.go.jp/

ビジネス上での事例

根拠に基づく医療

エビデンス・ベースド・メディスン

経験や勘、論理的に正しいではなく、エビデンスに基づく(導入)

給与や年収などの分布の見方

平均値などの代表値を使ってみる。

比率で見た地域間比較

労働者を増やす(M字カーブの改善効果

付加価値額と非正規職員比率の関係

未婚割合の多い地域とは?

スポーツをデータで科学する

ワールドカップで勝つためには

合計特殊出生率の見方

国際比較データから日本社会を読み解く

線形単回帰分析による予測

統計を使ってウソをつく方法からの学び

相関関係に気をつける

関係というのはいつまでも続くものではない

収入が増えるほどより人生に満足することができるようになるか?

いつもチャートの軸のスケールを確認する

TVのテロップなどの印象操作でおなじみ。

小さなサンプルからは驚くような結果を導き出せる

データを説明する全ての数値を見る

どの「代表値」が使われているのかに注意する

特に、正規分布以外の場合。

共通のベースラインと比べる

サンプルの選択過程にあるバイアスに気をつけろ

バイアス ≒ 標本の偏り

有名人には気をつけろ、そして権威を疑え

権威に訴える論証

一つの統計値を信じすぎてはいけない

≒ 特定の状況に対して過学習し過ぎている。

参考

YouTube?

Wikipedia

相関関係と因果関係

https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E9%96%A2%E4%BF%82%E3%81%A8%E5%9B%A0%E6%9E%9C%E9%96%A2%E4%BF%82

推計統計(統計的機械学習

統計的仮説検定

https://ja.wikipedia.org/wiki/%E4%BB%AE%E8%AA%AC%E6%A4%9C%E5%AE%9A

Qiita


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS