「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
- 標本を必ずしも必要としない、母数が確率的に動くとみなす。
- 手元のデータが不十分であることを前提に新たに情報が得られるたびに考え方を更新する。
- ベイズの定理というものを中心に主観的に条件付き確率を考えるという特徴がある。
ベイズ主義と頻度主義 †
ベイズ主義(ベイズ統計)と
頻度主義(一般的に扱われる統計)
| ベイズ主義 | 頻度主義 |
母数 | 確率定数 | 変数 |
データ | 変数 | 確率定数 |
主観確率と客観確率 †
主観確率を扱う統計学
- 得られたデータから確率を更新していく(ベイズ更新)
- 主観確率の数値に根拠データを要求しない。
ベイズの定理 †
同時確率と条件付き確率 †
- 同時確率
- とある前提条件と、とある事象が同時に起こる確率
- 同時確率P(事象∩前提条件)
- 条件付き確率
- とある前提条件があったとき、とある事象が起こる確率
- 条件付き確率P(事象|前提条件)
- X, Yの同時確率
P(X∩Y) = P(Y) * P(X)
- 式
- P(X|Y) = P(X∩Y) / P(Y)
- P(Y|X) = P(X∩Y) / P(X)
- 独立の場合
- P(X∩Y) = P(Y) * P(X)
- P(X|Y) = P(X∩Y) / P(Y) = P(Y) * P(X) / P(Y) = P(X)
- 非独立の場合、乗法定理
P(X∩Y) = P(Y) * P(X|Y) = P(X) * P(Y|X)
- X, Yの同時確率、条件付き確率の表
Y\X | 0 | 1 | 2 | 合計 |
3 | 1/12 | 5/24 | 1/24 | 8/24=1/3 |
4 | 2/12 | 5/12 | 2/24 | 8/12=2/3 |
合計 | 3/12=1/4 | 15/24=5/8 | 3/24=1/8 | 1 |
- 例
- 前提条件 Y=3, 事象 X=1 の場合、(5/24) / (1/3) = 15/24 = 5/8
- 前提条件 Y=4, 事象 X=1 の場合、(5/12) / (2/3) = 15/24 = 5/8
- ベイズの定理
非独立の場合、条件付き確率の乗法定理によって
「事象X, 前提条件Yの条件付き確率から、
前提条件X, 事象Yの条件付き確率(原因の確率)を求めること」ができる。
- P(Yi|X) = P(X∩Yi) / P(X)
- P(Yi|X) = (P(Yi) * P(X|Yi)) / P(X)
- P(X) = P(X∩Y1) + P(X∩Y2) + ... + P(X∩Yn) = Σ(X∩Yn) = Σ(P(Yj) * P(X|Yj))
- P(Yi|X) = (P(Yi) * P(X|Yi)) / Σ(P(Yj) * P(X|Yj))
- 工場ABCと不良品の確率
- 工場の確率(製造比率)
- 不良品の確率
- AF : 1/8
- BF : 1/2
- CF : 3/8
- 工場ABCと不良品
- 不良品が工場A:
((1/3)*(1/8))/(((1/3)*(1/8))+((1/9)*(1/2))+((5/9)*(3/8)))=3/22
- 不良品が工場B:
((1/9)*(1/2))/(((1/3)*(1/8))+((1/9)*(1/2))+((5/9)*(3/8)))=4/22
- 不良品が工場A:
((5/9)*(3/8))/(((1/3)*(1/8))+((1/9)*(1/2))+((5/9)*(3/8)))=15/22
※ P(目的変数|説明変数)
事前確率と事後確率 †
- 事前確率:最初に主観で確率を設定する。
- 事後確率:実際の観測データで補正した結果。
詳細 †
- 客観性が高いと言われてきた有意性検定の限界と破綻
- データ数が極端に多くなると、すべて有意になる。
- ρ値<5%の基準を使っている点にある。
- ベイズ統計では、データ数が増えるほど
研究仮説が正しい確率が0か1に収束する。
- 主観的な考えで条件を設定し、
不安定な全体から抽出した安定したデータ群に、
専門家が条件を付けながら答えを求めていく。
- “不確かさ”“あいまいさ”を受け入れやすい素地を持っている。
- 仮説を立てデータを収集し解析ではなく、
データが先にあるというケースに対応できる。
- 条件が複数になっていけば積分計算が必要になる。
- より多くのコンピューター資源を使う。
- 最近はITが飛躍的に進化し、ベイズ推定を応用できる環境が整ってきた。
フィルタ、モデル等 †
ベイジアンフィルタ †
- ナイーブベイズ・アルゴリズムを利用した
単純ベイズ(ナイーブベイズ)分類器(クラシファイア)を応用し、
対象となるデータを解析・学習し分類する為のフィルタの総称。
- 学習量が増えるとフィルタの分類精度が上昇するという特徴をもつ。
- 個々の判定を間違えた場合、ユーザが正しい内容に判定し直すことで再学習を行う。
ベイズモデル †
統計モデルのパラダイムシフトとして
記述能力と汎化能力のトレードオフを回避するパラメタθ
自体にも統計モデルを想定するような統計モデルの一種
- さまざまな情報を分布の形で表現する統計モデル
- データを与えたもとでのパラメタの確率分布を推定する
- 単純なモデルでは現実にそぐわない。
多くのパラメタが必要な非線形モデルにおいて、
様々な潜在変数を統一的に解析できる枠組。
- 顕在変数と潜在変数
潜在変数(観測できないデータ)を観測モデルにプラグインして
潜在変数も説明しながらデータが観測されるメカニズムを表現できる。
(潜在変数を無視した解析は本質的な理解とは遠い解析になるリスクを有する)
- 顕在変数:観測データとして取得できる。
- 潜在変数:観測データとして取得できない。
- 構造
以下のような統計モデルを有機的に結合
(軸(t)毎のパラメタが出てくる)
- パラメタaの不確実性を表す統計モデル
- パラメタθtの不確実性を表す統計モデル
- パラメタytの不確実性を表す統計モデル
- 枠組(モデル統合)
理論だけではなくドメイン知識も利用できる。
- 観測モデル
- 階層モデル
- 事前分布
- 潜在変数 1,2,...w
- マルコフ連鎖モンテカルロ法(MCMC)
- ベイズ階層モデルを推定する枠組み
- ベイズの定理を使ったデータ解析技術が飛躍的に進歩
- R、Pythonで比較的簡単に実装可能
- 二つのステップ
- マルコフ連鎖シミュレーションを通じたサンプリング
- モンテカルロ積分による期待値の計算
- プロセス
- 複数のモデルを立てる。
- 全てのモデルを推定・比較する。
- 最も妥当と考えられる構造を特定する。
- 情報の変換と活用。
- 上記を繰り返す。
ベイジアンネットワーク(BN) †
- 特徴
- 非線形で分布の密度関数を特定できない場合、
- 複数の離散的な変数間の依存関係を考慮し、
- 幅広い範囲の確率分布を表現出来る。
- 現象を複数の確率変数として近似するノンパラメトリック・モデル
- 確率的構造モデル(確率的グラフィカル・モデルとも呼ばれる)
確率的な因果構造(依存関係)をモデル化(構造化)して表現する。
- 条件付き確率表で不確実な現象を確率モデルで表現
(背景の条件付き確率で等価なため、決定木に変形も可能)
- 応用面
目的:知りたい対象の変数の事後確率分布を計算する。
- 関係のある変数間に条件付き確率表があり、
- 現象は各確率変数の同時分布として表現
- その変数でも入力・出力にできる。
- 依存関係を絞ることで記述量・計算量を劇的に削減可能。
- 複雑な因果関係の推論を有向非巡回グラフ構造により表す
- ノード
・離散的な確率変数
・観測ノード、未観測ノード、隠れノード
- 有向リンク
・定性的依存性:グラフ構造
・定量的依存性:条件付き確率(表 / パラメトリック・モデル)
- 完全データの場合
クロス集計表を正規化し条件付き確率表に変換
- 不完全データの場合
・事前確率分布を考慮し補完
・初期モデルを使って確率推論を行い
EMアルゴリズムにより欠損部を推定
・連続分布による近似で欠損データを補完
- 条件付き確率の学習
・離散確率変数:条件付き確率表を学習により作成(頻度分布から確率化)
・連続確率変数:パラメトリック・モデルのパタメタ学習(最小二乗法、最尤法) or 離散化
- グラフ構造の学習
BNで使う条件付き確率表では(離散確率変数の場合)
・クロス集計表ではカイ二乗検定により変数間の独立・従属性を判定
・条件付き独立性に基づく構造学習の判定は計算コストが大きいので
モデルの情報量基準を局所的に繰り返し変数間の独立・従属性を判定
・情報量基準:AIC、BIC/MDL、C4.5
(データの適合度とモデルの自由度による評価基準
・モデルを選択(ベイズ比検定
(ノードの探索戦略や制約条件で計算量を抑える
- 推論
- 確率伝播法(Belief Propagation
上流からのBeliefと下流からのBeliefをベイズの定理で統合
- ネットワーク構造によっては厳密な確率にならない問題
Junction Tree アルゴリズム(1本の順方向の構造へ変換)
Loopy Belief Propagation(近似計算)
その他、グラフ構造の確率モデル †
活用例 †
陽性時罹患率 †
- 病気Xが原因で、検査薬Yが結果
- 病気Xには、10万人に20人の割合で罹患する。
- 罹患者に検査薬Yを投与すると、80%の確率で陽性
- 健康な人に検査薬Yを投与すると、95%の確率で陰性
| 合計 | 陽性(Y1) | 陰性(Y2) |
罹患者(X1) | 20/100,000 = 0.0002 | 0.0002*0.8 | 0.0002*0.2 |
健康な人(X2) | 1 - 20/10,000 = 0.9998 | 0.9998*0.05 | 0.9998*0.95 |
- 陽性で実際に罹患者となる確率
迷惑メール †
(ベイジアンフィルタ)
- 迷惑メールのXが原因で、URL付きのYが結果
- 事前確率:迷惑メールは全体の30%(主観による設定)
- 迷惑メールの中でURL付きである確率は60%(観測による結果)
- 正常メールの中でURL付きである確率は10%(観測による結果)
| 合計 | URL有り(Y1) | URL無し(Y2) |
迷惑メール(X1) | 0.3 | 0.3*0.6 | 0.3*0.4 |
正常なメール(X2) | 1 - 0.3 = 0.7 | 0.7*0.1 | 0.7*0.9 |
- 事後確率:URL付きメールは72%で迷惑メール
- 72 = 30 * 尤度
- 尤度 = 72 / 30 = 2.4
- 事前確率は不明でも事後確率(尤度)を上げていけば良い。
- タイトル、本文に含まれる語句ごとの出現確率(=特徴)を抽出、
- 点数をつけ、スパムと正常なメールを判別するための閾値を導き出す。
診断・コールセンター †
(ベイジアンネットワーク)
- 医者の診断の効率化
- コールセンター効率化
- ソフトウェアのAIアシスタント
レコメンド †
(ベイジアンネットワーク)
(ベイジアンネットワーク)
- 行動の予測(シミュレート
確率的行動モデリング
- 事故防止
- 子供の事故防止(デンバーⅡ行動モデル+事故履歴の相互作用結果
- 価値創出のための循環型アプローチ
サービスシステムの価値構造モデリング
- 製造系DXをサービス分野で応用
サービス間の動線を横断的に分析してマーケティング的に利用する。
※ ステークホルダー・マネジメントが重要である模様
ベイズモデルのマルコフ連鎖モンテカルロ法(MCMC)を使用して、
消費者の行動の結果データで観測されている変数だけでなく、
その背後に存在する観測できない潜在変数までも含めて因果性を評価する。
- 異質性
- ★消費者の異質性
- 時間的異質性
- 店舗の異質性
- 製品の異質性
- 地域の異質性
- 銘柄の異質性
- 企業の異質性
- 潜在変数
- ブランドロイヤルティ
- 家庭内の在庫量・消費量
- 消費者の経験
- 消費者の将来を予知する能力
- 消費者の嗜好性、好き嫌い、興味の有無
推論・経験モデル †
- 2つの段階で推論モデルを構築する。
- 1つが学習する段階
推論モデルを試行錯誤により「逆問題」で構築していく。
- もう1つが“推論”する段階
学習段階で作られた推論モデルから「順問題」で解いていく。
※ データ分析 > 順問題と逆問題
参考 †
Qiita †
ビッグデータ関連 †
統計と機械学習 †
Wikipedia †
... †
アルゴリズム・モデル †