「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
- ベイズ主義(ベイズ統計)と
頻度主義(一般的に扱われる統計)
| ベイズ主義 | 頻度主義 |
母数 | 確率定数 | 変数 |
データ | 変数 | 確率定数 |
- 主観確率を扱う統計学
- 得られたデータから確率を更新していく(ベイズ更新)
- 主観確率の数値に根拠データを要求しない。
- 確率
- 事前確率:最初に主観で確率を設定する。
- 事後確率:実際の観測データで補正した結果。
詳細 †
- 客観性が高いと言われてきた有意性検定の限界と破綻
- データ数が極端に多くなると、すべて有意になる。
- ρ値<5%の基準を使っている点にある。
- ベイズ統計では、データ数が増えるほど
研究仮説が正しい確率が0か1に収束する。
- 主観的な考えで条件を設定し、
不安定な全体から抽出した安定したデータ群に、
専門家が条件を付けながら答えを求めていく。
- “不確かさ”“あいまいさ”を受け入れやすい素地を持っている。
- 仮説を立てデータを収集し解析ではなく、
データが先にあるというケースに対応できる。
- 条件が複数になっていけば積分計算が必要になる。
- より多くのコンピューター資源を使う。
- 最近はITが飛躍的に進化し、ベイズ推定を応用できる環境が整ってきた。
フィルタ、モデル等 †
ベイジアンフィルタ †
- 単純ベイズ分類器を応用し、対象となるデータを解析・学習し分類する為のフィルタ。
- 学習量が増えるとフィルタの分類精度が上昇するという特徴をもつ。
- 個々の判定を間違えた場合、ユーザが正しい内容に判定し直すことで再学習を行う。
ベイジアンネットワーク †
確率的な因果構造(依存関係)を
モデル化(構造化)して表現する
グラフィカルモデルの特性をもつ。
- 確率推論のモデル
- 複雑な因果関係の推論を
有向非巡回グラフ構造により表す
- 個々の変数の関係を条件つき確率で表す
ベイズモデル †
統計モデルのパラダイムシフトとして
記述能力と汎化能力のトレードオフを回避するパラメタθ
自体にも統計モデルを想定するような統計モデルの一種
- さまざまな情報を分布の形で表現する統計モデル
- データを与えたもとでのパラメタの確率分布を推定する
- 単純なモデルでは現実にそぐわない。
多くのパラメタが必要な非線形モデルにおいて、
様々な潜在変数を統一的に解析できる枠組。
- 顕在変数と潜在変数
潜在変数(観測できないデータ)を観測モデルにプラグインして
潜在変数も説明しながらデータが観測されるメカニズムを表現できる。
(潜在変数を無視した解析は本質的な理解とは遠い解析になるリスクを有する)
- 顕在変数:観測データとして取得できる。
- 潜在変数:観測データとして取得できない。
- 構造
以下のような統計モデルを有機的に結合
(軸(t)毎のパラメタが出てくる)
- パラメタaの不確実性を表す統計モデル
- パラメタθtの不確実性を表す統計モデル
- パラメタytの不確実性を表す統計モデル
- 枠組(モデル統合)
理論だけではなくドメイン知識も利用できる。
- 観測モデル
- 階層モデル
- 事前分布
- 潜在変数 1,2,...w
- マルコフ連鎖モンテカルロ法(MCMC)
- ベイズ階層モデルを推定する枠組み
- ベイズの定理を使ったデータ解析技術が飛躍的に進歩
- R、Pythonで比較的簡単に実装可能
- 二つのステップ
- マルコフ連鎖シミュレーションを通じたサンプリング
- モンテカルロ積分による期待値の計算
- プロセス
- 複数のモデルを立てる。
- 全てのモデルを推定・比較する。
- 最も妥当と考えられる構造を特定する。
- 情報の変換と活用。
- 上記を繰り返す。
活用例 †
陽性時罹患率 †
- 病気Xが原因で、検査薬Yが結果
- 病気Xには、10万人に20人の割合で罹患する。
- 罹患者に検査薬Yを投与すると、80%の確率で陽性
- 健康な人に検査薬Yを投与すると、95%の確率で陰性
| 合計 | 陽性(Y1) | 陰性(Y2) |
罹患者(X1) | 20/100,000 = 0.0002 | 0.0002*0.8 | 0.0002*0.2 |
健康な人(X2) | 1 - 20/10,000 = 0.9998 | 0.9998*0.05 | 0.9998*0.95 |
- 陽性で実際に罹患者となる確率
迷惑メール †
(ベイジアンフィルタ)
- 迷惑メールのXが原因で、URL付きのYが結果
- 事前確率:迷惑メールは全体の30%(主観による設定)
- 迷惑メールの中でURL付きである確率は60%(観測による結果)
- 正常メールの中でURL付きである確率は10%(観測による結果)
| 合計 | URL有り(Y1) | URL無し(Y2) |
迷惑メール(X1) | 0.3 | 0.3*0.6 | 0.3*0.4 |
正常なメール(X2) | 1 - 0.3 = 0.7 | 0.7*0.1 | 0.7*0.9 |
- 事後確率:URL付きメールは72%で迷惑メール
- 72 = 30 * 尤度
- 尤度 = 72 / 30 = 2.4
- 事前確率は不明でも事後確率(尤度)を上げていけば良い。
- タイトル、本文に含まれる語句ごとの出現確率(=特徴)を抽出、
- 点数をつけ、スパムと正常なメールを判別するための閾値を導き出す。
医者の診断やコールセンター †
(ベイジアンネットワーク)
レコメンド †
(ベイジアンネットワーク)
- EC/金融の商品の推薦
- 優良顧客の推薦
- マッチングビジネス
(ベイジアンネットワーク)
- 現場行動のシミュレート
確率的行動モデリング(ベイジアンネットワーク
- 価値創出のための循環型アプローチ
サービスシステムの価値構造モデリング(ベイジアンネットワーク
- 製造系DXをサービス分野で応用
サービス間の動線を横断的に分析してマーケティング的に利用する。
ベイズモデルのマルコフ連鎖モンテカルロ法(MCMC)を使用して、
消費者の行動の結果データで観測されている変数だけでなく、
その背後に存在する観測できない潜在変数までも含めて因果性を評価する。
- 異質性
- ★消費者の異質性
- 時間的異質性
- 店舗の異質性
- 製品の異質性
- 地域の異質性
- 銘柄の異質性
- 企業の異質性
- 潜在変数
- ブランドロイヤルティ
- 家庭内の在庫量・消費量
- 消費者の経験
- 消費者の将来を予知する能力
- 消費者の嗜好性、好き嫌い、興味の有無
推論・経験モデル †
- 2つの段階で推論モデルを構築する。
- 1つが学習する段階
推論モデルを試行錯誤により「逆問題」で構築していく。
- もう1つが“推論”する段階
学習段階で作られた推論モデルから「順問題」で解いていく。
※ データ分析 > 順問題と逆問題
参考 †
Qiita †
ビッグデータ関連 †
統計と機械学習 †