.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

分類

統計学は3つに分類できる。

記述統計

データを集計する手法を学ぶ学問、データの特徴を表現(推測統計の基礎)

  • あるデータに対して、そのデータの特徴をより簡単にわかりやすく表現する。
  • 複雑なデータをシンプルなかたちにすることで人間が理解しやすくする。

※ 全数調査が前提

推測統計

限られた標本から調査したい母集団全体の特徴を推測するという学問

  • 竜巻から生き残る可能性が高い方法(シェルター or 橋の下)を予測する。
  • 全人口の一部サンプルから全人口を予測する。
  • ある年、ある町で医療の処方を受ける必要がある人口を予測する。
  • 何人くらいの人が明日スーパーに来るのかを予測する。

ベイズ統計

標本を必ずしも必要としない、母数が確率的に動くとみなす学問

モデル

データとモデルが問題解決の両輪で、
データとモデルの解釈が重要になる。

統計モデル

統計モデル(非決定論的モデル

  • 基本パーツは、あくまで確率分布
  • ごく一部のデータから、真の分布を仮定して、
    全体の平均や分散の値を推測する。
    • 平均や分散を計算するだけでは、統計モデリングとはいえない。
    • ヒストグラムに正規分布を重ねあわせたらモデリングに一歩足を踏み入れている。
  • 記述能力・汎化能力
    • 記述能力:モデルのパラメタ推定に使ったデータを再現する能力
    • 汎化能力:モデルのパラメタ推定に使わなかったデータを予測する能力
  • トレードオフ
    • パラメタの少ない簡単な統計モデルでは記述能力が低下。
    • パラメタの多い複雑な統計モデルでは汎化能力が低下。
  • 分類
  • 線形モデル
    いわゆる通常の単回帰分析のモデル
  • 一般線形モデル
    重回帰分析・分散分析・共分散分析などを表す線形モデルの拡張
  • 一般化線形モデル
    目的変数に正規分布を仮定しない拡張された拡張
  • 一般化線形混合モデル
    • サンプルにグループ構造が存在する場合にグループ間の差による変動も組み込んだモデル
    • パラメタを消すため、積分回数も増え計算時間もかかり、推定も不安定になるためを用いるのが良い。

ベイズモデル

統計モデルのパラダイムシフト

AIのモデル

学習によって推論モデルを構築する。

統計表

基本的な表

度数分布表

  • 統計において標本として得たある変量の値のリスト
  • 変数(カテゴリ)、あるいは適当な範囲で、
    分類したデータの個数を数えて表にしたもの。
  • 計算方法
    表計算ソフト(Excel、LibreOffice? Calc)では
    数値データはFREQUENCY関数を、それ以外はCOUNTIF関数を使用する。

ヒストグラム

  • 度数分布表を棒グラフに似た図で表現したグラフ。
  • 表計算ソフト(Excel、LibreOffice? Calc)では
    度数分布表を作成して棒グラフで表示する。

散布図

時間を含む場合に使用する表

パネルデータ

クロスセクションデータ

  • 時点を固定した時の様々な分類のデータ
  • パネルデータを時系列で集計した表の
    特定の時点の分類のデータを並べたもの。
    • データの並ぶ順番に意味はない
    • 例:2014年1月1日時点の各都道府県の人口データ

時系列データ

  • 同じ分類で時点が異なるデータ
  • パネルデータを時系列で集計した表の
    特定の分類のデータを時系列に並べたもの。
    • データは並び順は通常、古い -> 新しい順
    • 例:東京都の1981年から2014年までの人口データ
  • 可視化は、時系列プロット、ヒストグラムで行う。

分布

確率分布

離散分布

0 でない確率をとる確率変数値が高々可算個である確率の分布。

連続分布

連続的な値の分布であり、ある範囲の値が起こる確率の分布

正規分布(ガウス分布)

  • 連続的な変数に関する確率分布の一つ(絶対連続分布)
  • データが平均値の付近に集積するような分布
  • 中心極限定理、自然界や統計ではよく現れる。
  • サイコロを n 回振ったときの出た目の和
  • 自然現象、ビギナーズラックが起こる理由は正規分布で理解できる
  • 標準偏差の範囲
    • 左右に1.00標準偏差の範囲に全体の68%が含まれる。
    • さらに1.96倍の範囲に全体の95%が含まれる。
    • さらに2.58倍の範囲に全体の99%が含まれる。

二項分布

対数正規分布

  • 確率変数 Y が正規分布に従うとき、e^Yが従う分布
  • 人工的な現象は歪な対数正規分布になる。
    • 身長の分布と違い体重の分布
    • ロングテイルによって特徴づけられる給与や個人資産の分布
      (少数の大資産家と大多数の小資産家からなる世界)

一様分布

  • 離散型あるいは連続的な変数に関する確率分布の一つ
  • すべての事象の起こる確率が等しい現象のモデル
  • 離散一様分布
    サイコロを振ったときの、それぞれの目の出る確率など
  • 連続一様分布
    ある区間にモノを無作為に落としたとき、その区間のどこに落ちるかなど

べき分布

  • まれにしか発生しない現象など
    • 自然現象:1950年代に地震の大きさと頻度の調査で発見され近年急速に研究が進んだ。
    • 経済現象:株価、為替などの市場価格の変動、所得、純資産の分布
    • 社会現象:本の売上分布、論文の数と引用された回数、戦争の発生頻度と死者数
  • 正規分布との比較
    分布平均分散特長
    正規分布意味あり意味あり(平均値からの乖離具合)ランダム
    ベキ分布意味のない場合がある意味のない場合があるファット・テール
    • 連続型:パレート分布
    • 離散型:ジップ分布

ベータ分布

連続確率分布(絶対連続分布)で、
第1種ベータ分布および第2種ベータ分布がある。

ガンマ分布

連続確率分布の一種(絶対連続分布)、
形状母数 k、尺度母数 θ の2つの母数で特徴づけられる。

三角分布

  • 最小値、最大値、および最頻値によって定義される連続分布
  • 分布の形状は三角形になる
    • 最小値から開始し、
    • 最頻値でのピーク値まで直線的に増加し、
    • 最大値まで直線的に減少

ワイブル分布

機械や物体が壊れる、劣化するといった現象になる確率を示す。

バスタブ曲線

時間が経過することによって起こってくる機械や装置の故障の割合の
変化をしめすグラフのうち、その形が浴槽の形に似ている曲線。

OC曲線

製品の製造過程などで抜き取り検査を行う際に、
製造ロットの不良率と検査合格率の関係を表したグラフ。

ポアソン分布

  • ある時間間隔で発生する事象の回数を表す離散確率分布
  • 元々は戦争で兵隊が馬に蹴られて死ぬ確率を表した分布
  • めったに起こらないが、起こるとある時期に固まって起きやすくなる現象
  • 二項分布の極限がポアソン分布になるらしい。

ベルヌーイ分布

確率 p で 1 を、確率 q = 1 − p で 0 をとる離散確率分布

標本分布

統計数値の精度を知るなど。

  • 母集団の分布
    母集団 → 全数調査
  • 標本の分布
    標本 → 標本調査 → 代表値の推定(推定値を計算)
    • 平均
    • 分散
    • 標準偏差
  • 推定値の正確さを知るため
    推定を繰り返し推定値の分布(標本分布)を作る。

期待値

  • 標本分布の平均値を期待値と言う。
  • 性質1:期待値は母集団平均に"平均的"に一致する。
  • 性質2:母集団分布によらず、
    標本サイズが大きいとき期待値は正規分布に近づく。

標準誤差率

  • 性質3:標準誤差は標本サイズに反比例する。
    • 標本サイズが小さいと標本平均の差は大きい。
    • 標本サイズが大きくなれば標本平均の差は小さくなる。
  • 標準誤差率は、以下のように計算できる。
         標準誤差
    = --------------
         推定値

信頼区間

  • 正規分布では、例えば、
    • 左右に1.96標準偏差の範囲に全体の95%が含まれる。
    • 左右に2.58標準偏差の範囲に全体の99%が含まれる。
  • この区間をn%信頼区間と呼び、
  • 期待値からのn%信頼区間は、
    n%の確率で母集団平均を含む。

分類と関係

特徴の分類

多変量解析

クラスタ分析

  • いろいろな性質のものが混じり合って存在しているなかで、
    対象を類似性によりグループに分類し、その属性を分析する手法。
    • クラスタ(房 / 集団 / 群れ)に分類して分析
    • ビッグデータのOne to oneマーケティング手法として最重要
  • 作成したグループを「クラスタ」と言う。
    • ポイントは、対象をどういう要因でグループに分類するか。
    • 表面に表れた事象や属性でクラスタに分け、その要因を分析します。
  • 以下で利用される。
    • ユーザーのセグメント分析
    • ブランディング(?)

主成分分析

データを量的に評価し分類する。

  • 観測データから合成スコアを構築することが目的(縮約)
    • 多次元のデータを次元圧縮(データは減らない)する
    • 座標で考えると,例えば3次元データを2次元データに要約(圧縮)するようなもの
    • 100次元から10次元への圧縮も可能(空間を面に、面を直線にと言うわけではない)。
  • 全国模試の例
    順位を合計点ではなく合成得点で出す。
    合成得点 = 数学 × 0.8 + 国語 × 1.5 + 英語 × 1.0
  • A:数学100点、国語20点、英語50点
    • 合計点:170点
    • 合成得点:160点
  • B:数学50点、国語40点、英語50点
    • 合計点:140点
    • 合成得点:150点
  • 合成変数
    • 第1主成分:0.8
    • 第2主成分:1.5
    • 第3主成分:1.0

因子分析

  • データを量的に評価し分類する構成概念の測定のための統計手法
  • 構成概念(潜在因子)
    直接観測はできないが、それを定義することにより
    観測された現象をうまく説明できるようになる事柄
    • この概念を構成概念と呼び、テストの個々の問題への解答を用いて測定
    • 構成概念を測定することを目的とした統計手法が因子分析や項目反応理論
    • 共通因子・独自因子(説明変数)
      • 共通因子:どの変数にも影響を与える因子
      • 独自因子:ある変数にのみ関連する因子
      • 交絡因子:独立変数と従属変数の両方に相関する因子
  • データからは直接には観測できない要因(構成概念 / 潜在因子)を推論して考える
    • 変数間の相関が高い理由は両変数の背後に共通因子が存在すると考える統計手法
    • 観測データ(目的変数)が合成量であると仮定し個々の構成要素(説明変数)を得ようとする
      • 各観測変数(目的変数)には誤差が付与される。
      • 構成要素(説明変数)がデータとして観測されていない回帰分析。
  • 確認的因子分析・探索的因子分析
  • 確認的因子分析
    • 観測変数と因子の関係について仮説がある状況で使う因子分析
    • 仮説(モデル)の正しさはCFI RMSEA SRMR AICなどの適合度指標で検討
  • 探索的因子分析
    • 明確な仮説がない状況で使う因子分析
    • いくつの、どのような因子があるのかを探索的に調べる。

変数間の関係

相関分析

  • 散布図上で見た変数間の関係を指標化できる。
    事前に散布図を書くことは、以下のように重要になることがある。
    • 無相関と思っていたのに、
      グループ分けによって相関が発現
    • 外れ値に気づかず、相関が高いと判断
      • 外れ値は取り除く。
      • 外れ値レコードが様々な列を持ってる場合、
        ココから更にクロス集計分析しても良い。
  • 指標
  • 共分散:
    平面にプロットされたデータの組の、
    其々の平均からの偏差の積の平均値
  • 相関係数:
    共分散を横軸と縦軸の標準偏差の積で割る。
    • スケールによらない。
    • 因果関係を表さない。
  • 相関係数
    相関係数は直線的な関係の強さを表す指標
  • 標本点が一直線上にある:線形(linear)
    • 右上がり(傾きが正):正の相関、相関係数=0~+1
    • 右下がり(傾きが負):負の相関、相関係数=0~-1
    • 目安
      ・0 ~±0.1:無相関
      ・±0.1~0.3:弱い相関
      ・±0.3~0.7:中程度の相関
      ・±0.7~1 :強い相関
  • 標本点が一直線上にない:非線形(nonlinear)
    • 多次元、離散的、外れ値を含む。
    • 外れが多い程、相関係数は0に近くなる。
    • 相関係数=0なら無相関
  • 計算方法
    • 表計算ソフト(Excel、LibreOffice? Calc)ではCORREL関数を使用する。
    • 計算の方法
              𝑿・𝒀の共分散
      = -------------------------
        𝑿の標準偏差 * 𝒀の標準偏差
  • 擬似相関
    (因果関係を包含しない見せかけの相関)
  • 共通因子
    例えば、所得と健康満足度に年齢と言う共通因子がある。
  • 同時相関
    時系列に単調トレンドがある場合。
  • 偶然
    再調査や類似研究の結果を確認
  • バイアス
    標本に偏りがある(相関が、有るのに無い、無いのに有る。の様な間違いが起きる)。
  • 因果の流れが逆
    残業と(能率ではなく)効率
    (能率なら残業しないほうが高いかも)
    • ✕:残業をやめれば、効率が上がる。
    • ○:効率の良い人が残業をしていない。
      (≒ 業績の良い企業・組織の人が残業をしない)
  • 因果の証明が難しい。
    • 緑茶の消費量が多い地域は長生き。
      長生きの原因は緑茶か?は証明が難しい。
    • おにぎりを買う人はお茶も買う?
      データを以下のようにクロス集計分析する。
      ・縦軸:お茶、横軸:おにぎり(因果関係なし:お茶 → おにぎり)
      ・縦軸:おにぎり、横軸:お茶(因果関係あり:おにぎり → お茶)

回帰分析

  • 回帰分析の流れ
    1. データを取る
    2. グラフにする
    3. 回帰式で表す

線形単回帰分析

  • 1つの目的変数を1つの説明変数で予測
  • 回帰式は、線形回帰の回帰直線
  • 散布図
    相関分析と同様に
    • グループ分けを行ったり、
    • 外れ値があった場合は、外れ値を削除したり、

重回帰分析

  • 説明変数が2つ以上(2次元以上)のもの。
  • 多変量解析、非線形の回帰曲面になる。

決定木分析

機械学習

統計解析 → ベイズ統計

予測モデル

プロセス

  • モデル作成
    • 準備
      以下の準備を行う。
      • 外れ値を削除
      • 欠損値の
        ・削除(欠損数が少ない場合)
        ・補完(平均値、最頻値)
  • モデル評価
    ...
  • 改善対策
    ...

線形単回帰モデル

線形単回帰分析のモデル。

  • 回帰式
    線形データを近似
  • 変数
    データXによるデータYの説明・予測
    • X:予測 / 説明 / 独立 変数
    • Y:基準 / 目的 / 被説明 / 従属 変数
  • 一次方程式(線形回帰の回帰直線)
    • 散布図に切片(B)・係数(A)の線を引く。
    • Y = AX + B
  • 残差:
    予測した値と実際の値との差
  • 残差分散:
    • 残差の二乗の平均(最小二乗法
    • 予測の外れ度合い = Y(基準変数)の分散
    • この値が小さいほど予測が上手く行く。
    • 残差分散が最小になるように係数を求める。
  • 決定係数(R2)
    • 基準変数が
      • ない予想はすべて平均値になる。
      • ある予想は回帰式に従った値になる。
    • 残差は、基準変数が
      • ない場合、大きく、
      • ある場合、小さい。
    • 以下の式で求められる1から0の間をとる数値で、1に近い程、
      基準変数がある場合の予測が正確 = 回帰式上にプロットがある、と言える。
        基準変数がない場合の残差分散 - 基準変数がある場合の残差分散
      = ------------------------------------------------------
                     基準変数がない場合の残差分散
  • 計算方法
    • Excelでは以下の様に分析できる。
  • まずデータから散布図を作成する。
  • 散布図中の1つのプロット上で右クリックしメニューを表示し、
    [近似曲線の追加]を選択し[近似曲線のオプション]で線形近似を選択、
  • 続いて、
    ・[グラフに数式を表示する]と
    ・[グラフにR-2乗値を表示する]に
    チェックを入れる。
  • 回帰式と決定係数(R2)を表示できる。
  • 外れ値は、外れ値のプロットを選択し右クリックして、
    [データの吹き出しを追加]を選択しX, Y座標値を表示し、
    座標値を確認して、今回の当該値を元データから削除する。
  • ...

重回帰モデル

  • 計算方法
    • Excelで分析できるが説明変数の組み合わせを逐一試す必要がある。
    • ステップワイズ法と言う説明変数の選択アルゴリズムがある。

...モデル

色々あるらしい。

過学習

活用

政府統計

一次統計と二次統計

  • 一次統計
  • 調査統計
    • 統計調査を行って集計した結果
    • 多くは標本調査で、一部、全数調査。
  • 業務統計
    行政機関に提出されたデータを集計した結果
  • 二次統計
    加工統計

統計局で作成している統計

  • 人口に関する基本的な統計
    • 国勢調査(全数調査
      • 対象:国内に常住するすべての人
      • 周期:5年
    • 人口推計
    • 住民基本台帳人口移動報告
  • 住宅・土地の状況を明らかにする統計
    • 住宅・土地統計調査
  • 国民の就業・不就業の状況を明らかにする統計
    • 労働力調査
    • 就業構造基本調査
  • 社会生活の実態を明らかにする統計
    • 社会生活基本調査
  • 事業所・企業に関する統計
    • 経済センサス(全数調査
      • 対象:全国の(民営)事業所及び企業(農林漁家等を除く
      • 周期:5年
  • 個人企業経済調査
  • サービス産業動向調査
  • 科学技術に関する統計
    • 科学技術研究調査
  • 家計の実態を明らかにする統計
    • 家計調査
      • 対象:約9千世帯
      • 周期:毎月
  • 家計消費状況調査
  • 全国家計構造調査
  • 物価に関する統計
    • 小売物価統計調査
    • 消費者物価指数(CPI)
    • 消費動向指数(CTI)
  • 地域に関する統計
    • 地域メッシュ統計

e-Stat 政府統計の総合窓口

https://www.e-stat.go.jp/

  • 統計データを探す
    • すべて
    • 分野
    • 組織
  • 統計データを活用する
  • 地図で見る統計(jSTAT MAP)
    ・プロット作成機能
    ・エリア作成機能
    ・統計グラフ作成機能
    ・レポート作成機能
  • 統計データダウンロード
  • 境界データダウンロード
  • 地域

ビジネス上での事例

根拠に基づく医療

エビデンス・ベースド・メディスン

  • 急性心筋梗塞後に抗不整脈薬を投与すれば 死亡者を減らせるはず
  • データでは、偽薬(プラシーボ)の方が人が死ななかった。

経験や勘、論理的に正しいではなく、エビデンスに基づく(導入)

給与や年収などの分布の見方

平均値などの代表値を使ってみる。

比率で見た地域間比較

  • 普及率
    太陽光発電システムのある住宅の数及び普及率
    • 住宅数で比較するのは正しい?
      住宅総数の多い都道府県で高くなる傾向
    • 比率(普及率)で比較
      日射量の多い地域で高くなる傾向
  • 女性の比率
    女性の数と比率
    • 実数では総人口が多いほど、女性が多い(相関係数 = 0.999)。
    • 比率にすると人口の多い都道府県ほど、女性の割合が低いと言う情報が得られる。

労働者を増やす(M字カーブの改善効果

  • 生産年齢人口中の女性の非労働力人口が多い。
  • 年齢階級別女性の労働力人口比率から、
    M字カーブ(妊娠・出産・育児による離職)を
    防止すれば生産年齢人口を増やすことができる。
  • スウェーデン並みに引き上げると534万人増加

付加価値額と非正規職員比率の関係

  • 産業間で付加価値額に差がある
    • 一般的に人件費の高い産業で大きくなる傾向
    • 非正規職員比率が高い産業は付加価値が小さくなる 傾向
  • 相関分析
    相関係数を計算すると(表計算ソフトで簡単に計算できる)、
    非常に強い負の相関(相関係数は-0.77071)があることが解る。

未婚割合の多い地域とは?

  • 地域の未婚割合に関連する地域のXXXX
    • 未成年割合(が高い地域
    • 借家割合(が高い地域

スポーツをデータで科学する

ワールドカップで勝つためには

  • 被説明変数
    • 順位
    • 勝率
    • 勝ち数
  • 説明変数
    FIFAから国別データが公表
    • 得点
    • シュート数
    • 位置別シュート数
    • 攻撃
    • 守備
    • 反則
    • パス
    • 走行距離
  • 散布図を描く。
    • 勝率(被説明変数)をy軸、
    • 説明変数をx軸として
      • パス成功数
      • ゴール枠内へのシュート数
      • ボール保有時の走行距離
      • シュートをブロックした回数
      • セーブ数(負の相関→シュートされ過ぎw)
      • バロンドール2010候補者の数

合計特殊出生率の見方

  • ある年次の15歳から49歳までの女性の年齢別出生率を合計した数値
  • 人口が維持できる水準(人口置換水準)は2.07
    • 1974年に2.05と下回って以降、右肩下がり。
    • 2005年には最低の1.26を記録するが回復傾向にあるが低い。
  • 県別にみた合計特殊出生率をみると
    • 0.7ポイントの差があり、ココに注目すると、
    • 共働き率(親との同居近居、保育所、職場の支援)に
      「低い」説明力があるらしいことが解ったとか。

国際比較データから日本社会を読み解く

  • 合計特殊出生率の国際比較
    • 欧米と比較した場合
    • アジアと比較した場合
  • 国際比較データでみる平均寿命
    • データをOECD加盟国(※)に限定
    • 国民の経済的な豊かさ(1人あたりのGDP)は寿命と対応している?
      回帰分析で、高い説明力があることが解るが、
      ソレ以外の要素も影響を与えている事が解る。

線形単回帰分析による予測

統計を使ってウソをつく方法からの学び

相関関係に気をつける

  • 因果関係(Xが原因でYが起きている or Yが原因でXが起きている
  • 擬似相関(XとYに関係はないが、たまたまあるように見える)
  • 第3の変数、ZがXとYに影響を与えている
  • 第3の隠れた要因のせいで、間違った結論を導き出してしまうことはよくある。
  • 大学に在籍している年数が長くなるほど裕福
    • 勤勉だから
    • 親が金持ちだから

関係というのはいつまでも続くものではない

収入が増えるほどより人生に満足することができるようになるか?

  • ○:貧困から抜け出した人々
  • ✕:一定の年収を超えた人々

いつもチャートの軸のスケールを確認する

TVのテロップなどの印象操作でおなじみ。

小さなサンプルからは驚くような結果を導き出せる

  • 標本分布、標準誤差は標本サイズに反比例する。
  • 発がん率が最も高いのは人口が最も少ない町であることが多い。

データを説明する全ての数値を見る

  • ある町の平均気温が16度(最高気温と最低気温の情報がないと役に立たない。
  • 2人の子供のIQが99と102だった(3ポイントほどの標準誤差がある
  • 平均で2年ほど寿命を長くする薬(14年ほど寿命が長くなったり、12年寿命が短くなったり

どの「代表値」が使われているのかに注意する

特に、正規分布以外の場合。

共通のベースラインと比べる

  • 相対的に比べることが重要。
  • 統計値を出す計算方法や定義の変化

サンプルの選択過程にあるバイアスに気をつけろ

バイアス≒標本の偏り

有名人には気をつけろ、そして権威を疑え

権威に訴える論証

一つの統計値を信じすぎてはいけない

≒ 特定の状況に対して過学習し過ぎている。

  • 1つの値ではなく、値の範囲を見るべき。
  • 数値だけでなく、その信頼区間を求めるべき。

参考

Qiita


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2022-01-12 (水) 16:33:08 (4d)