「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
分類 †
統計学は以下に分類できる。
- 記述統計・推計統計(ネイマン・ピアソン統計)
- 確率統計(ベイズ統計)
記述統計 †
データを集計する手法を学ぶ学問、データの特徴を表現(推測統計の基礎)
- あるデータに対して、そのデータの特徴をより簡単に解り易く表現する。
- 複雑なデータをシンプルな形にする事で人間が理解し易くする。
※ 全数調査が前提
推測統計 †
限られた標本から調査したい母集団全体の特徴を推測するという学問
- 竜巻から生き残る可能性が高い方法(シェルター or 橋の下)を予測する。
- 全人口の一部サンプルから全人口を予測する。
- ある年、ある町で医療の処方を受ける必要がある人口を予測する。
- 何人くらいの人が明日スーパーに来るのかを予測する。
- 標本を必ずしも必要としない、母数が確率的に動くとみなす。
- 手元のデータが不十分であることを前提に新たに情報が得られるたびに考え方を更新する。
モデル †
データとモデルが問題解決の両輪で、
データとモデルの解釈が重要になる。
統計モデル †
統計モデル(非決定論的モデル
- 記述能力・汎化能力
- 記述能力:モデルのパラメタ推定に使ったデータを再現する能力
- 汎化能力:モデルのパラメタ推定に使わなかったデータを予測する能力
- トレードオフ
- パラメタの少ない簡単な統計モデルでは記述能力が低下。
- パラメタの多い複雑な統計モデルでは汎化能力が低下。
- 一般線形モデル
重回帰分析・分散分析・共分散分析などを表す線形モデルの拡張
- 一般化線形混合モデル
- サンプルにグループ構造が存在する場合にグループ間の差による変動も組み込んだモデル
- パラメタを消すため、積分回数も増え計算時間もかかり、推定も不安定になるためを用いるのが良い。
統計モデルのパラダイムシフト
学習によって推論モデルを構築する。
統計表 †
基本的な表 †
度数分布表 †
- 変数(カテゴリ)、あるいは適当な範囲で、
分類したデータの個数を数えて表にしたもの。
- 計算方法
表計算ソフト(Excel、LibreOffice? Calc)では
- 数値データはFREQUENCY関数を、
- それ以外はCOUNTIF関数を使用する。
- 一変量解析
- 度数分布表を棒グラフに似た図で表現したグラフ。
- データの分布状況を視覚的に認識するために用いられる。
- どう計画するか?
- 仮説:連続する階級に分布する度数に傾向がある。
- 目的の数値化
- どう読めばいいか?
- 特徴:比較結果
- 意味合い:次の仮説
- 特徴的な分布
・現象の多くは正規分布に従う
・二山形:異なる2種類のグループが混在している可能性
・離れ小島:集団の一部に対して特定の異常が発生している可能性
- パレートの法則(80:20の法則)的に偏りを見る。
- 以下を組み合わせた複合グラフ
- 値が降順にプロットされた棒グラフ
- その累積構成比を表す折れ線グラフ
- どう作るか?
- Matplotlib
- Excelで
- 度数でソート後
- 構成比率、累積構成比率を追加
- 階級毎、度数で棒グラフ化
- 累積構成比率を折れ線グラフ化
- 3変数に拡張
- 量的変数ならプロットを色分け
- 3次元プロット(ただし見難い)
- バブル・チャート(プロットが多いと見難い)
時間を含む場合に使用する表 †
パネルデータ †
クロスセクションデータ †
- パネルデータを時系列で集計した表の
特定の時点の分類のデータを並べたもの。
- データの並ぶ順番に意味はない
- 例:2014年1月1日時点の各都道府県の人口データ
時系列データ †
- パネルデータを時系列で集計した表の
特定の分類のデータを時系列に並べたもの。
- データは並び順は通常、古い -> 新しい順
- 例:東京都の1981年から2014年までの人口データ
分布 †
平均値からの散らばり
分布を指標化した数値 †
分散 †
- データの散らばりの度合いを表す値。
- 散らばりが大きいと分散も大きくなり、
- 散らばりが小さいと分散は 0 に近づく。
- Excelであれば、
「分散 = VARP(値の範囲)」で計算可能。
- 二乗偏差の平均
σ^2 = 偏差平方和 / 自由度
- 自由度 = 標本の数 - 1
- 偏差平方和 = Σ((各データ値 - 平均値)^2)
- 期待値から計算する。
V(X) = E(X^2) - E(X)^2
- サイコロの例
出目 | X | 1 | 2 | 3 | 4 | 5 | 6 |
出目^2 | X^2 | 1 | 4 | 9 | 16 | 25 | 36 |
確率 | P(X) | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
E(X^2) = | 1/6 + | 4/6 + | 9/6 + | 16/6 + | 25/6 + | 36/6 |
分散 | V(X) | E(X^2) - E(X)^2 = (1+4+9+16+25+36)/6 - (7/2)^2 = 91/6 - 49/4 = 35/12 |
標準偏差 †
- Excelであれば、
「= STDEVP(値の範囲)」で計算可能。
- 計算式は、
分散を平方根にとる。
- σ = √σ^2
- 平方根(√)は 値^0.5 で計算可能。
偏差値 †
偏差値 = 50 + 標準偏差 * 10
※ ばらつきが小さいテストで高得点だと高くなる。
分布の形 †
- 尖度
ピーク(峰)への集中度合いを示す値
- 歪度
左右の非対称性(ピーク(峰)の偏り)を示す値
確率分布 †
- なんとなく、軸の説明を目にすることが少ないが、
- 縦軸は確率密度、≒ 頻度、定義域内での値の相対的な出易さ
- 横軸は確率変数、≒ 取り得る値全体、分布上の位置
離散分布 †
0 でない確率をとる確率変数値が高々可算個である確率の分布。
連続分布 †
連続的な値の分布であり、ある範囲の値が起こる確率の分布
正規分布(ガウス分布) †
- 連続的な変数に関する確率分布の一つ(絶対連続確率分布)
- データが平均値の付近に集積するような分布
- 大数の法則
標本数nを増やすほど標本平均は母平均μに近づく。
- 母集団の分布にかかわらず、
その標本平均(抽出された標本の平均)は正規分布する。
- 自然界や統計ではよく現れる。
・サイコロを n 回振ったときの出た目の和。
・ビギナーズラックが起こる理由は正規分布で説明できる
- 分布に関して事前知識がない場合、
最初にモデルとして検討される分布
・独立な確率変数の平均は近似的に正規分布
・モデル化したい分布の多くは正規分布に近い。
- 標準偏差の範囲 → 信頼区間
- 左右に1.00標準偏差の範囲に全体の68%が含まれる。
- さらに1.96倍の範囲に全体の95%が含まれる。
- さらに2.58倍の範囲に全体の99%が含まれる。
標準正規分布 †
- 平均が0で標準偏差が1の正規分布。
- 単位正規分布表またはZテーブルで積分計算せず確率計算が可能。
多変量正規分布 †
二項分布 †
反復試行の確率分布
- 代表的なのは、コイン投げをたくさん行ったときの表が出る回数の分布
- Aが起こる確率をpとしたときに、繰り返し試行した結果、Aが起こる回数の分布
- 確率pが0.5に近く、試行回数が十分大きいときは正規分布に近づき、
- 確率pが小さいときにはポアソン分布に近づく。
ポアソン分布 †
- 元々は戦争で兵隊が馬に蹴られて死ぬ確率を表した分布
(≒ 稀に起こる現象の発生確率を示す分布)
- 情報工学では重要な確率分布
- めったに起こらないが、起こるとある時期に固まって起きやすくなる現象、
- 例えば、システムの信頼度、故障率、待ち行列といった現象に適用される。
対数正規分布 †
- 確率変数 Y が正規分布に従うとき、e^Yが従う分布
- 人工的な現象は歪な対数正規分布になる。
- 身長の分布と違い体重の分布
- ロングテイルによって特徴づけられる給与や個人資産の分布
(少数の大資産家と大多数の小資産家からなる世界)
一様分布 †
- 離散型あるいは連続的な変数に関する確率分布の一つ
- すべての事象の起こる確率が等しい現象のモデル
- 離散一様分布
サイコロを振ったときの、それぞれの目の出る確率など
- 連続一様分布
ある区間にモノを無作為に落としたとき、その区間のどこに落ちるかなど
べき分布 †
- まれにしか発生しない現象など
- 自然現象:1950年代に地震の大きさと頻度の調査で発見され近年急速に研究が進んだ。
- 経済現象:株価、為替などの市場価格の変動、所得、純資産の分布
- 社会現象:本の売上分布、論文の数と引用された回数、戦争の発生頻度と死者数
- 正規分布との比較
分布 | 平均 | 分散 | 特長 |
正規分布 | 意味あり | 意味あり(平均値からの乖離具合) | ランダム |
ベキ分布 | 意味のない場合がある | 意味のない場合がある | ファット・テール |
ベータ分布 †
連続確率分布(絶対連続分布)で、
第1種ベータ分布および第2種ベータ分布がある。
ガンマ分布 †
連続確率分布の一種(絶対連続分布)、
形状母数 k、尺度母数 θ の2つの母数で特徴づけられる。
三角分布 †
- 最小値、最大値、および最頻値によって定義される連続分布
- 分布の形状は三角形になる
- 最小値から開始し、
- 最頻値でのピーク値まで直線的に増加し、
- 最大値まで直線的に減少
ワイブル分布 †
機械や物体が壊れる、劣化するといった現象になる確率を示す。
バスタブ曲線 †
時間が経過することによって起こってくる機械や装置の故障の割合の
変化をしめすグラフのうち、その形が浴槽の形に似ている曲線。
OC曲線 †
製品の製造過程などで抜き取り検査を行う際に、
製造ロットの不良率と検査合格率の関係を表したグラフ。
ベルヌーイ分布 †
離散確率分布
- 期待値はp
= 0(1-p) + 1(p) = p
- 出る確率と期待値、分散
- 確率
- 表P(X=1)=1/3の時、
- 裏P(X=0)=1-P(X=1)=1-(1/3)=2/3の時
- 期待値、分散
- 期待値は 1P+0(1-P) = P = 1/3
- 分散は 1^2P+0^2(1-P) - P^2 = P-P^2 = P(1-P)= 1/3(1-(1/3))=2/9
- 対数尤度関数を偏微分
この式が = 0になるPがもっともらしい推定値。
= k/P - n-k/(1-P)
- 確率分布の表現例
- 表が出ると言う事象に1、裏がでるという事象に0
- 4枚のコインを同時に投げて裏表どちらが出るかという試行を1200回行う
事象 | 表:4, 裏:0 | 表:3, 裏:1 | 表:2, 裏:2 | 表:1, 裏:3 | 表:0, 裏:4 | |
確率変数 | 4 | 3 | 2 | 1 | 0 | |
回数 | 75 | 300 | 450 | 300 | 75 | |
確率 | 75/1200=1/16 | 300/1200=4/16 | 450/1200=6/16 | 300/1200=4/16 | 75/1200=1/16 | 確率の和:(1+4+6+4+1)/16=1 |
確率変数と確率の積 | (1*4)/16=4/16 | (4*3)/16=12/16 | (6*2)/16=12/16 | (4*1)/16=4/16 | (1*0)/16=0/16 | 分布の期待値:(4+12+12+4+0)/16=32/16=2 |
マルチヌーイ分布 †
(カテゴリ分布)
- ベルヌーイ分布を実現値が3つ以上の場合にも対応できるよう拡張した確率分布
- サイコロを振ったとき1つの面kの出目の確率をpkとして、
- k面が出る事象を X=1
- k面以外が出る事象を X=0
とすればXはマルチヌーイ分布に従う。
t分布 †
標本数が十分に多ければ正規分布が期待できる標本でも、
標本数が少ない場合は正規分布よりも分散が大きくなる。
- このような場合に用いられる確率分布がt分布。
- 標本数が少ない場合に正規分布の代用として用いられる。
X^2分布 †
- カイ二乗(X^2)分布は、標本の分散の分布
- 自由度が大きくなると分散の分布は正規分布に近づく。
- 標本分散から母分散を予測する場合に利用する
分布のため推測統計では広く用いられる分布
- 期待度数:
- 行要素と列要素が独立であると仮定した際の期待値
- 計算式:= 当該列ラベル総計 ×(当該行ラベル総計 ÷ 全データ数)
- カイ二乗(X^2)値:
- カイ二乗(X^2)分布の値
- 計算式:= (実測値 - 期待度数)^ 2 ÷ 期待度数
F分布 †
- 標本それぞれの自由度によってF分布の形状は異なる。
- 差を比較するときに有効な分布で分散分析に用いられる。
カイ二乗(X^2)分布と同様に、
サンプル数が少ないほど、指数関数的な分布になる。
標本分布 †
統計数値の精度を知るなど。
- 標本の分布
標本 → 標本調査 → 代表値の推定(推定値を計算)
- 推定値の正確さを知るため
推定を繰り返し推定値の分布(標本分布)を作る。
期待値 †
- 確率論において、確率変数のすべての値に確率の重みをつけた加重平均。
- 確率分布において、標本分布の平均値
- 性質1:期待値は母集団平均に"平均的"に一致する。
- 性質2:母集団分布によらず、標本サイズが大きいとき期待値は正規分布に近づく。
- Σ(総和)で計算する。
E(X) = Σ X P(X)
- サイコロの例
出目 | X | 1 | 2 | 3 | 4 | 5 | 6 |
確率 | P(X) | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
期待値 | E(X) | 1+2+3+4+5+6/6=21/6=7/2=3.5 |
- ∫(積分)で計算する。
E(X)=∫-∞~∞ X P(X) dx
- なお、∫-∞~∞ P(X) dxは必ず1になる必要がある(あたりまえ、っちゃ、あたりまえ)。
標準誤差率 †
標本分布の標準偏差を標準誤差と言う。
- 性質3:標準誤差は抽出する標本サイズの平方根に反比例する。
- 標本サイズが小さいと標本平均の差は大きい。
- 標本サイズが大きくなれば標本平均の差は小さくなる。
- 標準誤差率は、以下のように計算できる。
= 標準誤差 / 推定値
信頼率(危険率) †
- 信頼率:予測の当たる確率
- 危険率:予測の外れる確率
信頼区間 †
- 標本の平均から母集団の平均を推測することができる。
- 期待値からのn%信頼区間は、
- n%の確率で母集団平均を含む。
- 値の入手元
- 自由度 :標本サイズ
- 標本平均 :標本分布
- 不偏標準偏差 :標本分布
- 信頼区間の上下限:正規分布表
※ 平方根(√)は 値^0.5 で計算可能。
サンプルサイズ †
一般的にサンプルサイズは標準誤差と信頼区間から逆算して求める。
変数間の関係 †
回帰分析 †
線形単回帰・重回帰分析 †
説明変数の数により以下に分けられる。
回帰係数、偏回帰係数 †
- 回帰係数
- 目的変数に対する影響度合い。
- 例えば、y=βx+αという単回帰
- 偏回帰係数
- 説明変数同士の影響を取り除いた、目的変数に対する影響度合い。
- 例えば、y=γx1+βx2+αという単回帰
P値(有意確率) †
- 計算されたβ=1.0が、推定によってβ=0.0(xとyは無関係)になる確率
- 故にP値を計算して十分に小さい場合にのみ ≒ x と y に関係があると言える。
- t値:
- 棄却域の境界
- 大きいほど(母集団との)ズレが大きい
- P値:
- 棄却域の面積
- 小さいほど(母集団との)ズレが大きい
- 回帰分析
0.05(5%有意水準)よりも小さい(大きい)値の場合、
目的変数と説明変数の間に関係がある(ない)確率が高い。
(関係がない場合、該当する説明変数を分析の対象から削除する場合もある。)
- 仮説検定
0.05(5%有意水準)よりも大きい(小さい)値の場合、
標本の平均 = 母集団の平均 の可能性は 5% 以下(以上)で、
帰無仮説(集団間に「差はない」と言う仮説)は棄却(採択)される。
2変数間の関係 †
二変量解析(y = f(x))
相関分析 †
- 散布図上で見た変数間の関係を指標化できる。
事前に散布図を書くことは、以下のように重要になることがある。
- 無相関と思っていたのに、
グループ分けによって相関が発現
- 外れ値に気づかず、相関が高いと判断
- 外れ値は取り除く。
- 外れ値レコードが様々な列を持ってる場合、
ココから更にクロス集計分析しても良い。
- 変数のデータの関係を示す指標で、
- プラス:右肩上がりの散布図(正比例)
- ゼロ:関係が無い(相関が無い)
- マイナス:右肩下がりの散布図(反比例)
- 標本点が一直線上にある:線形(linear)
- 右上がり(傾きが正):正の相関、相関係数=0~+1
- 右下がり(傾きが負):負の相関、相関係数=0~-1
- 目安
・0 ~±0.1:無相関
・±0.1~0.3:弱い相関
・±0.3~0.7:中程度の相関
・±0.7~1 :強い相関
- 標本点が一直線上にない:非線形(nonlinear)
- 多次元、離散的、外れ値を含む。
- 外れが多い程、相関係数は0に近くなる。
- 相関係数=0なら無相関
- 共変関係
- 共通因子が生み出す2つの結果の間の相関関係。
- 例えば、所得と健康満足度に年齢と言う共通因子がある。
- 同時相関
時系列に単調トレンドがある場合の相関関係。
- バイアス
標本に偏りがある(相関が、有るのに無い、無いのに有る。の様な間違いが起きる)。
- 因果の流れが逆
残業と(能率ではなく)効率(能率なら残業しないほうが高いかも)
- ✕:残業をやめれば、効率が上がる。
- ○:効率の良い人が残業をしていない。
(≒ 業績の良い企業・組織の人が残業をしない)
- 緑茶の消費量が多い地域は長生き。
長生きの原因は緑茶か?は証明が難しい。
- おにぎりを買う人はお茶も買う?
データを以下のようにクロス集計分析する。
・縦軸:お茶、横軸:おにぎり(因果関係なし:お茶 → おにぎり)
・縦軸:おにぎり、横軸:お茶(因果関係あり:おにぎり → お茶)
- 線形外挿の危険性
- 外挿とは、そのデータの範囲の外側で予想される数値を求めること。
- 線形外挿とは、線形補間をデータ範囲の外側の点に対して適用する最も簡単な外挿。
- より広い範囲でデータを取ったら曲線的な関係で、その一部が直線的という事があり得る。
- 故に、データが得られた周辺の入力に対してしか、予測が信頼できない。
線形単回帰分析 †
- 相関関係の分析
因果関係と断定できない。
線形外挿の危険性がある。
- 回帰係数と相関係数
- 回帰係数は y に対する x の関係と言う一方通行的な係数
- 相関係数は x と y 相互間の関係と言う双方向な係数
3つ以上の変数間の関係 †
多変量解析(y = f(x1, x2, x3, ... ))
線形重回帰分析 †
- 回帰分析の流れ
- データを取る
グラフにする
- 回帰式で表す
N次元線形回帰モデル
y = w1x1 + w2x2 + w3
- 目的と理論
- 目的:予測、説明
- 理論:最小二乗法と勾配降下法
3変数以上の最小二乗法は勾配降下法で解く
- 影響度 = 偏回帰係数 *(変数のレンジ(最小値-最大値))
- 説明変数の中に、相関係数が高い組み合わせがある場合、
・偏回帰係数の分散を増加させて不安定になる(?)
・データ点が直線上にまとまり回帰曲面が回転して不安定になる。
- 抑制変数
相関係数が低くても予測における重要度が大きい説明変数
- 相関係数が低い抑制変数を利用した学習もさせる。
- 自由度調整済み決定係数がより大きいモデルを採用する。
- 特徴量(説明変数)選択
- 説明変数の組み合わせを逐一試す必要がある。
- ステップワイズ法と言う説明変数の選択アルゴリズムがある。
- 交互作用
説明変数の効果が別の説明変数の値によって変化する作用
- 線形回帰モデルでは交互作用を表現できない。
- 交互作用を考慮に含めるためには、非線形回帰モデルを使う。
数量化理論Ⅰ類 †
- 影響度
(質的 ≒ 0・1データなので)
- 変数間では回帰係数のレンジ(最小値-最大値)を用いる。
- 変数内では回帰係数をそのまま利用可能。
- 質的なデータのままでは、分析にかけられないため、ダミー変数を使い数量化する。
- 質的データの状態
標本No. | 来店者数 | 曜日 | 天候 |
1 | n1 | 月 | 晴 |
2 | n2 | 火 | くもり |
3 | n3 | 水 | 雨 |
4 | n4 | 木 | 雪 |
5 | n5 | 金 | 雹 |
6 | n6 | 土 | 晴 |
7 | n7 | 日 | 晴 |
- ダミー変数を使い量的データ化した状態
標本No. | 来店者数 | 曜日 | 天候 |
月 | 火 | 水 | 木 | 金 | 土 | 日 | 晴 | くもり | 雨 | 雪 | 雹 |
1 | n1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 |
2 | n2 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 |
3 | n3 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 |
4 | n4 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 |
5 | n5 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 |
6 | n6 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 |
7 | n7 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 |
- 0・1データの場合に予測可能な列を1つ削除(曜日の日・天候の雹の列を削除)
標本No. | 来店者数 | 曜日 | 天候 |
月 | 火 | 水 | 木 | 金 | 土 | 晴 | くもり | 雨 | 雪 |
1 | n1 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 |
2 | n2 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 |
3 | n3 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 |
4 | n4 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 |
5 | n5 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
6 | n6 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 |
7 | n7 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
判別分析 †
最も当てハマるカテゴリ(ある事象の発生)を予測
- 判別分析における重回帰分析の回帰式を判別式と呼ぶ。
- 判別式(の0.5)の境界で判別率を計算する。
- 1を0と外す場合と、0を1と外す場合、
どちらのケースが許容範囲内かが重要。
- 質的なデータのままでは、分析にかけられないため、ダミー変数を使い数量化する。
- 質的データの状態
標本No. | 利用年数 | 年齢 | 買い替え |
1 | x11 | x21 | ○ |
2 | x12 | x22 | ✕ |
3 | x13 | x23 | ○ |
4 | x14 | x24 | ✕ |
5 | x15 | x25 | ○ |
6 | x16 | x26 | ✕ |
7 | x17 | x27 | ○ |
- ダミー変数を使い量的データ化した状態
標本No. | 利用年数 | 年齢 | 買い替え |
1 | x11 | x21 | 1 |
2 | x12 | x22 | 0 |
3 | x13 | x23 | 1 |
4 | x14 | x24 | 0 |
5 | x15 | x25 | 1 |
6 | x16 | x26 | 0 |
7 | x17 | x27 | 1 |
- 必要なら0・1データの場合に予測可能な列を1つ削除
(ココでは、0・1の一列なので削除は不要)
多項式回帰 †
- 多項式(2次関数や3次関数など)を利用した回帰分析
- 回帰式に曲線(あるいは曲面、超曲面)を使用する(非線形性を導入する)。
x1^2 や x1^3を一つの説明変数と見なすことで線形回帰と全く同じ方法で学習できる。
- 問題点:過学習が起き易い。
- 説明変数が多過ぎる。
- 重みパラメタの絶対値が極端に大きくなる(→ 正則化回帰)。
正則化回帰 †
- 概要
- 最小二乗法 > 勾配降下法 > 誤差関数に
- 制約(罰則)を付け加えて推定量を縮小させる解析法
- 二乗誤差関数にパラメタを大きくすると損失が増える正則化項を足して、パラメタの自由度を下げ過学習を防止する。
- 重み(パラメタ)の値を平易なものにし、手法によっては説明変数を自動的に減らす。
- 「誤差」のΕ(w)に「パラメタが大きくなるとペナルティが加えられる罰則項」の正則化項(=λR(w))が追加される。
- λは、正則化の強さを制御するハイパーパラメタ
- この Ε’(w) が最小になるパラメタの点を模索する。
Ε’(w) = Ε(w) + λR(w)
- これはKKT条件で「R(w)=Rの制約の下で損失関数を最小化する」と言うことになるらしい(絵的に)。
- 二乗誤差関数の解を小さくしようとする圧力(解を二乗誤差関数の極小値に近づける向き)
- 解の存在範囲を小さくしようとする圧力(解を原点に近づける向き)
- ElasticNet?
- 式はL2とL1の中間の形状である膨らみを持った正方形
- L1とL2の中間のノルムに罰則を課す正則化回帰
ロジスティック回帰分析 †
2値分類の確率を予測(回帰とあるが分類
- 目的変数 [y] が質的なデータの場合。
- 事象の有無がはっきりと決まる場合
- 出力は y=1 になる確率の値(2値分類)。
- 目的変数が 確率 (0-100%) の 数値 0-1 で表わされる場合。
- 判別データである目的変数をダミー変数によって数量化する。
- 以下で使用される。
- 病気の発生する確率の予測
予測変数:アルコール摂取量と喫煙本数
- ターゲット顧客の商品購入率の予測
予測変数:職業・性別・趣味
- 目的と理論
- 目的:予測、説明
- 理論:(最適化手法が)最小二乗法ではなく最尤法(パーセプトロンより柔軟)
・最も尤も(もっとも)らしいパラメタを獲得すると言うコンセプト
・予測確率を出力できるところがパーセプトロンに対する優位性
・回帰分析の最小二乗法では残差を最小にするように回帰係数を決めた。
・ココでは逸脱度(対数尤度の合計 * -2)を最小にするように偏回帰係数を求める。
・回帰式:Ln ( NG確率 / 1 - NG確率 ) = ax1 + bx2 + cx3 + d
・コンピュータが無くても計算がし易い(=計算機統計未満みたいな)
- 別の説明
- 確率(probability)
・ある事柄「A」が起きる確率:P(A)
・Y = 1 である確率:P(y = 1)
- 条件付き確率(conditional probability)
・ある事柄「B」が起きると言う条件下での別の事柄「A」が起きる確率:P(A|B)
・データ x が与えられたとき y = 1 である確率:P(y = 1|x)
- モデル数式
・P(Y = 1|x1) = σ(w0 + w1 x1)
・σ:Sigmoid関数
- オッズ比
- とあるできごとが起こる確率と起こらない確率の比
- 説明変数の値が1変化したときにオッズが何倍になるかを示す。
- オッズ比が1倍より高い(あるいは低い)ほど、影響がある説明変数になる。
- 「ある事象が起こる確率p」(他カテゴリ)と「起こらない確率(1-p)」(基準カテゴリ)の比
= P / 1 - P
- 完全分離ケース
- 完全分離または準完全分離に近い状態で最尤推定量が妥当とは思えない結果を出す。
- 偏回帰係数や標準誤差が異常に大きな値になっている場合に完全分離が生じている可能性が高い。
- 質的なデータのままでは、分析にかけられないため、ダミー変数を使い数量化する。
- 質的データの状態
標本No. | 含有率 | 強度検査 |
物質A | 物質B | 物質C | 結果 |
1 | x11 | x21 | x31 | ○ |
2 | x12 | x22 | x32 | ✕ |
3 | x13 | x23 | x33 | ○ |
4 | x14 | x24 | x34 | ✕ |
5 | x15 | x25 | x35 | ○ |
6 | x16 | x26 | x36 | ✕ |
7 | x17 | x27 | x37 | ○ |
- ダミー変数を使い量的データ化した状態
標本No. | 含有率 | 強度検査 |
物質A | 物質B | 物質C | 結果 |
1 | x11 | x21 | x31 | 1 |
2 | x12 | x22 | x32 | 0 |
3 | x13 | x23 | x33 | 1 |
4 | x14 | x24 | x34 | 0 |
5 | x15 | x25 | x35 | 1 |
6 | x16 | x26 | x36 | 0 |
7 | x17 | x27 | x37 | 1 |
- 必要なら0・1データの場合に予測可能な列を1つ削除
(ココでは、0・1の一列なので削除は不要)
サポートベクターマシン †
(SVM)
- 統計的学習理論の枠組みで提案された機械学習
- 教師あり学習で、分類と回帰を扱うが、主に分類タスクで使われる。
- テキストマイニング、災害危険度評価、倒産判別問題、非線形な競馬予測などに利用される。
- 特徴
- 分類タスクの識別関数の式は不明だが正・負で決定的な出力をする。
- 「分離マージン最大化」というコンセプトに基いて分類を行うため未学習データに対して高い識別性能を得る。
- カーネル関数は暗に高次元の特徴空間へ写像することを意味する
- 分離マージン最大化
- 超平面上の各データ点と距離(マージン)が最大となる決定境界を求める。
- 決定境界は超平面上の各データ点と距離(マージン)が最大となるように求める。
- データ点、サポート・ベクトル
- サポート・ベクトルの最小数は2
- サポート・ベクトルの様々な定義
・決定境界を構成するデータ点
・誤分類されたデータ点
・マージン上のデータ点
・境界から最も近いデータ点
- カーネル関数(≒高次元に射影する射影関数)による写像によって線形分類できるようにする。
- 多項式カーネル
k(x, y) = (x^T y + c)^d
- ハード・マージン
- 学習データがマージンの内側に入らないことを強制する。
- 過学習する可能性がある。
- ソフト・マージン
- 学習データがマージンの内側に入ることを許容する。
- 過学習を抑制し汎化性が高くなる。
- ハイパー・パラメタ
・スラック変数(余裕度)とパラメタC(制約条件の厳しさ)
・パラメタCは小さい方が汎化性能は良いが、C=0では誤分類が増える。
決定木分析 †
事前検知、要因分析
- 決定木とは、
- ツリー構造を用いて分類、回帰を行う機械学習の手法。
- 情報利得の最大化を基準に条件分岐を繰り返す。
- 分類の結果がツリー構造で可視化されるため、
要因、条件を把握でき、予測のなかで最もアウトプットの解釈がし易い。
・最初の分岐が「最も従属的」な変数で、順に小さくしていく。
・木の左が低い確率の条件、右が高い確率の条件となるように記述する。
- 決定木分析には回帰木を作る分析と分類木を作る分析がある。
- 回帰木 (regression tree)
目的変数 [y] が量的なデータの場合(の関数の近似に用いられる。
- 分類木 (classification tree)
目的変数 [y] が質的なデータの場合(に用いられる。
- 目的と理論
- 目的:予測、説明
- 理論:集中度、従属度を決める指標
・CHAID:カイ二乗(X^2)値
・CART :Gini不純度
ある集合から1サンプルを抽出して戻し2回目の抽出で
異なるカテゴリのサンプルを抽出する確率で表す。
最小になるように枝わかれする。
・C4.5、C5.0:エントロピー
カテゴリの混ざり具合、乱雑度を表す。
最小になるように枝わかれする。
- 不純度
ひとつのノード内に複数のクラスが
どれだけ混在しているかを表す指標。
- ジニ不純度
ノード内からランダムにサンプルを取り出すとき
特定クラスのサンプルを狙って取り出せない確率
- 情報利得
条件分岐で、どれだけクラスを分離出来たか?
- 数学的には、条件分岐の前後での不純度の総和の差額。
- 決定木の条件分岐ではこの差分の最大化を目指す。
- 分岐基準
以下の a・b を分岐後のノードで繰り返し学習しながら全分岐を進める。
- 分岐基準の決定
全ての変数内で可能な分岐点を試行し分岐前後の集中度改善が最大の点を検出。
- 変数選択
分岐前後の集中度改善が最大となる変数から分岐する。
- 剪定
単純な構造のため、サンプリングの違いによって境界線が大きく変わる。
- 深いノードでの条件分岐において過学習を起こしやすくなる。
- 末端の枝葉の要素数が小さくなり過ぎないようにする。
- ランダムフォレスト
・データの一部をランダムに取り出す(ブートストラップ(サンプリング))。
・識別ルールに使う特徴量をランダムの選択し決定木を構築処理を複数回繰り返す。
・決定木による複数の弱学習器を統合させて汎化能力を向上させる(バギング)
・各木の推定結果の多数決で最良の結果を選択により分類・回帰を行う。
・ランダムフォレストを用いた例
各特徴量を外した時に、予測精度(正解率)が
どれくらい悪化するかを求め、その差で重要度を推定する方法
- 勾配ブースティング木
・勾配降下法と決定木(ブースティング)が組み合わされた手法
・ハイパーパラメタが多く、汎化性能への影響大。
・勾配ブースティング(XGBoost、LightGBM)を用いた例
・「モデルの学習の際、その特徴量が使用された回数」で推定する方法(split)
・「その特徴量が使用される分岐から、損失関数を小さくなったか
(目的関数がどれだけ改善されたか)の幅」で推定する方法(gain)
- タイタニック
標本No. | クラス | 性別 | 年齢 | 生存 |
1 | x11 | x21 | x31 | ○ |
2 | x12 | x22 | x32 | ✕ |
3 | x13 | x23 | x33 | ○ |
4 | x14 | x24 | x34 | ✕ |
5 | x15 | x25 | x35 | ○ |
6 | x16 | x26 | x36 | ✕ |
7 | x17 | x27 | x37 | ○ |
特徴の分類 †
- 多変量解析に含まれるが、目的変数 [y] の無い分析。
- 教師なし学習に分類されるため分析者の主観的な解釈が必要となる。
主成分分析 †
(Principal Component Analysis、PCA)
情報集約(次元削減の最も簡単な手法)。
- 複数の変数を集約して、データを量的に評価し分類する分析。
- データを要約するような特徴量(主成分)を抽出
- 特徴量間の相関を分析してデータの構造をつかみ、
- 相関のない少数の特微量へと次元削減する。
- 全国模試の順位算出の例とか、業界の規模算出の例とか。
順位・優劣を、合計点ではなく合成得点で出すなどの場合。
- 多次元のデータを次元圧縮(縮約)
複数の変数の相関を計算し相関の高い変数をまとめて少数の変数に合成する。
コレによってデータを解釈し易くする(100次元から10次元への圧縮も可能)
- 主成分:変数を減らすために設定する新しい軸
主成分は、以下のようになるように作成する。
・重心(平均値)が原点となる。
・分散が最大となる。
・元の情報量をなるべく損なわないよう、
・各点から主成分に引いた垂線の長さの総和が最小となる。
・第一主成分に直交し分散が最大になる第二主成分...を変数の次元数繰り返す。
- 固有値:主成分スコアの分散
・相関行列の主成分分析を行うと、固有値の合計は変数の数に一致する。
・つまり、固有値1は変数1つ分の分散を説明していると解釈できる。
・固有ベクトルは行列をスカラーである固有値に変換するベクトル。
・新しい軸の座標:Z = 固有ベクトル1 * x1 + 固有ベクトル2 * x2 + ...
- 特徴抽出
・次元圧縮(縮約)で、少ない特徴量で効率よく説明できる。
・ただし、低次元の場合は、特徴選択の方が精度が高いケースも。
- 寄与率:固有値を固有値の合計に占める%として表す。
- 累積寄与率:主成分に元の情報の何%を残すことができたか情報の集約度
- 寄与率の累積%を表す。一般に、80%が1つの目安になっている。
- いくつの主成分を採用するかは累積寄与率が基準になる。
- 因子負荷量
- 主成分が元の特徴量をどのように合成して作られたものなのかを表す指標
- それぞれの主成分に対する、元の各特徴量との相関係数にあたる数値
- プロファイルの妥当性
ヒアリングの結果などから解釈可能
- 主成分分析以外の次元圧縮(縮約)
- 特異値分解(Singular Value Decomposition、SVD)
- 多次元尺度構成法(Multi-Dimensional Scaling、MDS)
- t-SNE(t-distributed Stochastic Neighbor Embedding)可視化によく用いられる
因子分析 †
- データを量的に評価し分類する構成概念の測定のための統計手法
- 主成分分析とは因果関係を異にする。
- 主成分分析は観測データから主成分を合成
- 因子分析は観測データが合成量であると仮定し個々の潜在因子を分析
- 構成概念(潜在因子)
直接観測はできないが、それを定義することにより
観測された現象をうまく説明できるようになる事柄
- この概念を構成概念と呼び、テストの個々の問題への解答を用いて測定
- 構成概念を測定することを目的とした統計手法が因子分析や項目反応理論
- 共通因子・独自因子(説明変数)
- 共通因子:どの変数にも影響を与える因子
- 独自因子:ある変数にのみ関連する因子
- 交絡因子:独立変数と従属変数の両方に相関する因子
- データからは直接には観測できない要因(構成概念 / 潜在因子)を推論して考える
- 変数間の相関が高い理由は両変数の背後に共通因子が存在すると考える統計手法
- 観測データ(目的変数)が合成量であると仮定し個々の構成要素(説明変数)を得ようとする
- 各観測変数(目的変数)には誤差が付与される。
- 構成要素(説明変数)がデータとして観測されていない回帰分析。
- 確認的因子分析
- 観測変数と因子の関係について仮説がある状況で使う因子分析
- 仮説(モデル)の正しさはCFI、RMSEA、SRMR、AICなどの適合度指標で検討
- 探索的因子分析
- 明確な仮説がない状況で使う因子分析
- いくつの、どのような因子があるのかを探索的に調べる。
クラスタ分析 †
データの特性から似ているデータ同士をグループ化し、
いくつかのクラスタ(集団を意味)に分類する分析(グループ分け、特徴抽出)。
- クラスタ(房 / 集団 / 群れ)に分類する。
- 分類後、クラスタ毎の特徴を分析する。
- 標本毎の折れ線グラフ等で可視化
- 重回帰分析の属性毎の影響度
- マーケティング
ビッグデータのOne to oneマーケティング手法として最重要
- 目的と理論
- 目的:類似グループの発見
- 理論:
- 階層型
・教師なしの決定木的なグループ化
・小さなテーブル向きの手法
- 非階層型
・距離に基づくグループ化
・コサイン距離
・ユークリッド距離
・マハラノビス距離
・比較的大きいテーブル向きの手法
階層型 †
...
非階層型 †
以下、非階層型のクラスタ分析のk平均法(k-means clustering)を扱う。
- 考え方
- ランダムに適当にグループを振り分け
- 重心を設定する。
- 最も近い重心のグループに分け直し
- 重心を再設定する。
- 変化が無くなるまで③~④を繰り返す。
- クラスタ内誤差平方和(SSE)の最小化
SSE:各クラスタ・サンプルの重心とユークリッド距離の二乗和
- ベクトル化:≒ 量的データのダミー変数化
- 0・1を、0・0.707にする。
- この際、列削除は不要。
- 主成分分析をクラスタリングの前に適用
以下の3つのメリットがある。
- 次元削減によって、「次元の呪い」を回避できる。
(次元が増えると学習データ量が指数関数的に増える)
- 主成分同士に相関がないので、ユークリッド距離が使える
- 主要な潜在変数に次元削減できるので、結果を説明しやすい
- サンプルの生成
・超球状のクラスタを2つ生成
・細長いクラスタを1つ生成
- k-means法でクラスタ分析してプロットすると、
細長いクラスタに超球状のクラスタが食い込む。
- サンプルの生成
・サンプル数25のクラスタを2つ生成
・サンプル数300のクラスタを1つ生成
- k-means法でクラスタ分析してプロットすると、
大きなクラスタに小さなクラスタが食い込む。
- 重心の初期値次第で、最終的なクラスタが大きく変わる
- 重心をランダムに割り当てる場合、複数回試み性能の良いものを選択。
- 重心が他の重心の近くの位置にならないように距離を測って初期化する。
- エルボー法
クラスタ数が小さ過ぎると複数クラスタを無理やり統合する
ことになるので、SSEが急に上がる言う仮説に基づいている。
- シルエット分析
・シルエット係数 = (乖離度 − 凝集度) / 両者のうち大きい方(大きいほど良い)
・乖離度:一番近い他クラスタのサンプルと各サンプルとの距離(大きいほど良い)
・凝集度:クラスタの重心と各サンプルとの距離(小さいほど良い)
・シルエット図
同じ太さのナイフ状のパレートが平均の線に深めに刺さっていると良い感じ。
・シルエット係数の平均値より大きいサンプルが多いクラスタは適切にクラスタリングされている。
・全クラスタのサンプル数が大きく偏っていない場合、適切にクラスタリングされている。
- 各クラスタのサイズ
- 各クラスタのサイズが極端に偏っている場合(10:1など)
- クラスタ数見直しを行って再分析 or 外れ値として分析から除外。
- クラスタ差別化の程度
- 入力変数に対して各クラスタ平均が著しく異なっているかを判断。
- クラスタ分散などで各クラスタ内での散らばりが大きくないことを確認。
- プロファイルの妥当性
業界知識やビジネス仮説から解釈可能
予測モデル †
プロセス †
- モデル作成
- 準備
以下の準備を行う。
- 外れ値を削除
- 欠損値の
・削除(欠損数が少ない場合)
・補完(平均値、最頻値)
線形単回帰モデル †
線形単回帰分析のモデル。
回帰式 †
線形データを直線で近似
- 変数
説明変数が1次元(データXによるデータYの説明・予測
- X:予測 / 説明 / 独立 変数
- Y:基準 / 目的 / 被説明 / 従属 変数
- 一次関数(線形回帰の回帰直線)
- 散布図に切片(B)・係数(A)の線を引く。
- Y = AX + B
残差: †
予測した値と実際の値との差
残差平方和: †
- 残差の二乗(平方)の和、
二乗で+・-を打ち消す。
Σ(yi-(axi+b))^2
- この値が
- 小さいほど予測が上手く行く。
- 最小になるように係数を求める。
残差分散: †
- 残差の二乗(平方)の平均
二乗で+・-を打ち消す。
Σ(yi-(axi+b))^2 / N-p-1
- この値が
- 小さいほど予測が上手く行く。
- 最小になるように係数を求める。
決定係数(R2乗値) †
- 値が1なら、
- 残差がすべて0である
- モデルがデータに完全にあてはまっている。
- 値が1未満なら、
- 0.9以上 :非常に当てはまりが良い
- 0.7~0.9:当てはまりが良い
- 0.5~0.7:あまり当てはまりが良くない
- 0.5未満 :当てはまりが悪い
- 目的変数が
- ない予想はすべて平均値になる。
- ある予想は回帰式に従った値になる。
計算方法 †
重回帰モデル †
線形データを直線で近似
- 目的変数 (y) と説明変数 (x1,x2,x3・・・)
y = ax1 + bx2 + cx3 + d
- 単回帰分析と異なり、最小二乗法と勾配降下法によって決定。
説明変数がn個になると、n+1個の変数を含む
2次関数の最小値を見つける最小二乗法の問題
...モデル †
色々あるらしい。
確率と検定 †
区間推定 †
- 全データを収集すれば真の平均値が得られるが、現実的に困難。
- そこで、得られた標本から推定できる母平均(母集団の平均値)の範囲を求める。
- 区間推定では、標本の信頼区間から母平均がどの範囲にあるかを推定する。
仮説検定 †
検定(仮説検定、統計的仮説検定)
概要 †
- 母集団分布の母数に関する仮説を標本から検証する統計学的方法のひとつ。
- 母集団のある性質について、分析対象である標本の確率分布から判断、検証。
- 区間推定の考え方を応用すると、
複数の集団のデータに対しての推定範囲を比べれば、
「集団間に差があるのか?ないのか?」の疑問に答えられるが
- 慎重になれば
「全データを確認しないと本当に差があるのか解らない。」
- 楽観的になれば
- 「サンプルの標本平均と、母平均は同じ。」
- 「サンプル毎の標本平均が違うのだから、母平均も違う。」
となってしまう。
- 「極端に楽観的な判断」も「極端に慎重な判断」も
- 現実で使うにはふさわしくない。
- 中間の丁度良い判断の指標が必要になる。
- それを実現するのが検定(仮説検定、統計的仮説検定)。
- 確率的に見て集団間の違いの有・無を判断する。
手順 †
- その仮説に対して以下を設定する。
- 帰無仮説:集団間に「差はない」と言う仮説
- 対立仮説:帰無仮説の反対の「差がある」と言う仮説
- この仮説+(帰無仮説 or 対立仮説)を
肯定するか、否定するかを確率分布から決める。
- 肯定することを「採択する」
- 否定することを「棄却する」
- 白いカラスの例
- 世界には黒いカラスが99%、白いカラスが1%居ると仮定。
- 1,000羽のカラスを観測したらすべて黒いカラスだった。
- このとき、上記の仮説は正しいとする帰無仮説だと
確率は 0.99^1000 = 0.00004 と、とても低い。
- とすると以下の様に考えるのが自然
- 帰無仮説が誤り(棄却)。
- 対立仮説が正しい(採択)。
- 有意水準:P値(有意確率)の水準
- 仮説が間違っていると判断する確率
- 有意水準はP値 = 0.05(5%), 0.01(10%) などが多く使われる。
検定手法 †
分類 †
| | 名義尺度のデータ | 正規分布しない | 正規分布する |
1変数 | - | X^2検定 | Kolmogorov-Smirnovの1試料検定 | z検定/t検定 |
2変数 | 独立 | X^2検定 | Mann-WhitneyのU検定 | t検定 |
対応 | McNema?の検定 | Wilcoxonの符号付き順位和検定 | t検定 |
多変数 | 独立 | X^2検定 | Kruskal-Wallisの検定 | F検定 |
対応 | CochranのQ検定 | Friedmannの検定 | F検定 |
t検定 †
群間差と個体差により事象に違いがあるか統計的観点から示す。
- 以下の様な場合に用いられる。
- サンプルは母集団を代表しているか?
- 集団Aと集団Bに差はあるといえるか?
- Excelで分析する手順
P値(有意確率) = 0.05(5%)を有意水準として使用する。
- 個数 := SUM(データの範囲)
- 平均 := AVERAGE(データの範囲)
- 標準偏差 := STDEV(データの範囲)
- t値 := ABS( (標本の平均 - 母集団の平均) / (標準偏差 / √個数) )
- P値(片側):= TDIST(t値, 自由度(= 個数 - 1), 分布の指定(= 片側分布 = 1) )
※ 平方根(√)は 値^0.5 で計算可能。
X^2検定 †
期待値と実測値により事象に違いがあるか統計的観点から示す。
F検定 †
- データ群の分散が等しいか分析する際に用いるF分布を利用する検定法
- 分散分析は観測データのばらつきを、
- 誤差にすぎないのか、
- それとも各要因の特性による差なのか
に分解し、要因の効果を判定する分析。
- 全体のバラツキは、群内のバラツキと群間のバラツキの和として表現できる。
- 群内より群間のバラツキが大きければ、群の違いが大きいことを意味する。
- 一方、群間より群内のバラツキが大きければ、バラツキは群の違いに起因しない。
と言える。
- 表の例
標本No | 群A | 群B | 群C |
1 | A1 | B1 | C1 |
2 | A2 | B2 | C2 |
3 | A3 | B3 | C3 |
... | ... | ... | ... |
- 事前に表を組んでおく(列追加)。
・全体:各項目の範囲を群内ではなく全体にしたもの。
- 表外の項目に関しては以下。
・個数:= COUNT(群内の値の範囲)
・平均:= AVERAGE(群内の値の範囲)
・分散:= VARP(群内の値の範囲)
・偏差平方和
・群間:= (全体の平均 - 当該群の平均)^2 * 当該群の個数
・群内:= 当該群の分散 * 当該群の個数
・全体:= 全体列の分散 * 全体列の個数
・自由度
・群間:= COUNTA(群名の範囲) - 1
・群内:= (群Aの個数 - 1) + (群Bの個数 - 1) + ...
・F値:= (偏差平方和(群間)の合計 / 自由度(群間)) / (偏差平方和(群内)の合計 / 自由度(群内))
・P値:= FDIST(F値, 自由度(群間), 自由度(群内))
- Excelで分析する手順
- [データ分析]から[分散分析: 一元配置]を選択
- [入力範囲]を指定して[OK]ボタンを押下。
・分散分析: 一元配置
グループ | 標本数 | 合計 | 平均 | 分散 |
群A | ... | ... | ... | ... |
群B | ... | ... | ... | ... |
群C | ... | ... | ... | ... |
・分散分析表
変動要因 | 変動 | 自由度 | 分散 | 観測された分散比 | P-値 | F境界値 |
群間 | ... | ... | ... | ... | ... | ... |
群内 | ... | ... | ... | ... | ... | ... |
合計 | ... | ... | | | | |
活用 †
政府統計 †
一次統計と二次統計 †
- 調査統計
- 統計調査を行って集計した結果
- 多くは標本調査で、一部、全数調査。
- 業務統計
行政機関に提出されたデータを集計した結果
統計局で作成している統計 †
- 人口に関する基本的な統計
- 国勢調査(全数調査
- 人口推計
- 住民基本台帳人口移動報告
- 事業所・企業に関する統計
- 経済センサス(全数調査
- 対象:全国の(民営)事業所及び企業(農林漁家等を除く
- 周期:5年
- 物価に関する統計
- 小売物価統計調査
- 消費者物価指数(CPI)
- 消費動向指数(CTI)
e-Stat 政府統計の総合窓口 †
https://www.e-stat.go.jp/
- 地図で見る統計(jSTAT MAP)
・プロット作成機能
・エリア作成機能
・統計グラフ作成機能
・レポート作成機能
ビジネス上での事例 †
根拠に基づく医療 †
エビデンス・ベースド・メディスン
- 急性心筋梗塞後に抗不整脈薬を投与すれば 死亡者を減らせるはず
- データでは、偽薬(プラシーボ)の方が人が死ななかった。
経験や勘、論理的に正しいではなく、エビデンスに基づく(導入)
給与や年収などの分布の見方 †
平均値などの代表値を使ってみる。
比率で見た地域間比較 †
- 普及率
太陽光発電システムのある住宅の数及び普及率
- 住宅数で比較するのは正しい?
住宅総数の多い都道府県で高くなる傾向
- 比率(普及率)で比較
日射量の多い地域で高くなる傾向
- 女性の比率
女性の数と比率
- 実数では総人口が多いほど、女性が多い(相関係数 = 0.999)。
- 比率にすると人口の多い都道府県ほど、女性の割合が低いと言う情報が得られる。
労働者を増やす(M字カーブの改善効果 †
- 年齢階級別女性の労働力人口比率から、
M字カーブ(妊娠・出産・育児による離職)を
防止すれば生産年齢人口を増やすことができる。
付加価値額と非正規職員比率の関係 †
- 産業間で付加価値額に差がある
- 一般的に人件費の高い産業で大きくなる傾向
- 非正規職員比率が高い産業は付加価値が小さくなる 傾向
- 相関分析
相関係数を計算すると(表計算ソフトで簡単に計算できる)、
非常に強い負の相関(相関係数は-0.77071)があることが解る。
未婚割合の多い地域とは? †
スポーツをデータで科学する †
ワールドカップで勝つためには
- 説明変数
FIFAから国別データが公表
- 得点
- シュート数
- 位置別シュート数
- 攻撃
- 守備
- 反則
- パス
- 走行距離
- 散布図を描く。
- 勝率(目的変数)をy軸、
- 説明変数をx軸として
- パス成功数
- ゴール枠内へのシュート数
- ボール保有時の走行距離
- シュートをブロックした回数
- セーブ数(負の相関→シュートされ過ぎw)
- バロンドール2010候補者の数
合計特殊出生率の見方 †
- ある年次の15歳から49歳までの女性の年齢別出生率を合計した数値
- 人口が維持できる水準(人口置換水準)は2.07
- 1974年に2.05と下回って以降、右肩下がり。
- 2005年には最低の1.26を記録するが回復傾向にあるが低い。
- 県別にみた合計特殊出生率をみると
- 0.7ポイントの差があり、ココに注目すると、
- 共働き率(親との同居近居、保育所、職場の支援)に
「低い」説明力があるらしいことが解ったとか。
国際比較データから日本社会を読み解く †
- 国際比較データでみる平均寿命
- データをOECD加盟国(※)に限定
- 国民の経済的な豊かさ(1人あたりのGDP)は寿命と対応している?
- 回帰分析で、高い説明力があることが解るが、
- ソレ以外の要素も影響を与えている事が解る。
統計を使ってウソをつく方法からの学び †
- 因果関係(Xが原因でYが起きている or Yが原因でXが起きている
- 擬似相関(XとYに関係はないが、たまたまあるように見える)
- 第3の隠れた要因のせいで、
間違った結論を導き出してしまうことはよくある。
関係というのはいつまでも続くものではない †
収入が増えるほどより人生に満足することができるようになるか?
- ○:貧困から抜け出した人々
- ✕:一定の年収を超えた人々
いつもチャートの軸のスケールを確認する †
TVのテロップなどの印象操作でおなじみ。
小さなサンプルからは驚くような結果を導き出せる †
- 標本分布、標準誤差は標本サイズに反比例する。
- 発がん率が最も高いのは人口が最も少ない町であることが多い。
データを説明する全ての数値を見る †
- ある町の平均気温が16度(最高気温と最低気温の情報がないと役に立たない。
- 2人の子供のIQが99と102だった(3ポイントほどの標準誤差がある
- 平均で2年ほど寿命を長くする薬(14年ほど寿命が長くなったり、12年寿命が短くなったり
どの「代表値」が使われているのかに注意する †
特に、正規分布以外の場合。
共通のベースラインと比べる †
- 相対的に比べることが重要。
- 統計値を出す計算方法や定義の変化
サンプルの選択過程にあるバイアスに気をつけろ †
バイアス ≒ 標本の偏り
有名人には気をつけろ、そして権威を疑え †
権威に訴える論証
一つの統計値を信じすぎてはいけない †
≒ 特定の状況に対して過学習し過ぎている。
- 1つの値ではなく、値の範囲を見るべき。
- 数値だけでなく、その信頼区間を求めるべき。
参考 †
YouTube? †
Wikipedia †
相関関係と因果関係 †
https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E9%96%A2%E4%BF%82%E3%81%A8%E5%9B%A0%E6%9E%9C%E9%96%A2%E4%BF%82
推計統計(統計的機械学習 †
統計的仮説検定 †
https://ja.wikipedia.org/wiki/%E4%BB%AE%E8%AA%AC%E6%A4%9C%E5%AE%9A
Qiita †