.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

記述統計推計統計

記述統計

  • あるデータに対して、そのデータの特徴をより簡単にわかりやすく表現する。
  • 複雑なデータをシンプルなかたちにすることで人間が理解しやすくする。

推測統計

限られた標本から調査したい母集団全体の特徴を推測するという学問

  • 竜巻から生き残る可能性が高い方法(シェルター or 橋の下)を予測する。
  • 全人口の一部サンプルから全人口を予測する。
  • ある年、ある町で医療の処方を受ける必要がある人口を予測する。
  • 何人くらいの人が明日スーパーに来るのかを予測する。

参考

モデル

  • モデルは推定や予測をするのに必要な数学的なフレームワーク
  • モデルを作る目的は、データの生成プロセスをおおまかに理解するため。
  • 強い仮定を持ったモデルと弱い仮定を持ったモデルの間で
  • どちらのアプローチが良いのか
    解らないまま、どちらかのアプローチを選ぶ。
  • 強い(弱い)仮定を持ったモデル
    • 多くの(少ない)バイアスが含まれる危険(安全)
    • 推定量の分散を小さくする(大きくする)
  • モデルの仮定や検証
    • モデルの妥当性、モデルのパラメータの正確な推定、モデルからの推論が関心ごと。
    • テストに使われるデータは分析対象の母集団からランダムに取られたサンプル

詳細

推測

確率分布(平均、中央値、分散)

一様分布

正規分布

対数正規分布

三角分布

ベータ分布

離散分布

ポアソン分布

ワイブル分布

バスタブ曲線

OC曲線

関連

相関分析

  • 2変数間の関係を数値で記述する分析方法
  • 相関係数が中心で、 データXとデータYの関係性を見る。
  • 標本点が
    • 一直線上にある:線形(linear)
      • 右上がり(傾きが正):相関係数=+1
      • 右下がり(傾きが負):相関係数=-1
  • 一直線上にない:非線形(nonlinear)
    • 外れが多い程、相関係数は0に近くなる。
    • 相関係数=0なら無相関

回帰分析

  • 回帰式が中心で、 データXによるデータYの 説明・予測のための式を作る。
  • 最も基本的な回帰式は Y = AX + B という形式の線形回帰。

決定木分析

ひとつの原因をもとに、仮説を何回も繰り返し、その結果から何通りもの予測を行う手法。

  • 仮説を繰り返すことで経過が樹木状に枝分かれしたモデル図になる。
    • 「回帰木」「分類木」「ディシジョンツリー」などとも呼ばれる。
    • 複雑かつ多様な要因を整理、要因や属性を分析、分岐毎の確率計算も可能。
  • 以下で利用される。
    • マーケティング
    • リスクマネジメント

特徴

クラスタ分析

  • いろいろな性質のものが混じり合って存在しているなかで、
    対象を類似性によりグループに分類し、その属性を分析する手法。
    • クラスタ(房 / 集団 / 群れ)に分類して分析
    • ビッグデータのOne to oneマーケティング手法として最重要
  • 作成したグループを「クラスタ」と言う。
    • ポイントは、対象をどういう要因でグループに分類するか。
    • 表面に表れた事象や属性でクラスタに分け、その要因を分析します。
  • 以下で利用される。
    • ユーザーのセグメント分析
    • ブランディング(?)

主成分分析

多次元のデータを次元圧縮(データは減らない)する方法

  • 座標で考えると,例えば3次元データを2次元データに要約(圧縮)するようなもの
  • 100次元から10次元への圧縮も可能(空間を面に、面を直線にと言うわけではない)。

参考


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-05-01 (金) 11:34:02 (35d)