「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
詳細 †
情報理論 †
- 情報理論は数学を用いて「情報」の本質を明らかにする学問。
- 応用先には効率の良い情報通信や通信時の情報誤りの訂正等がある。
- ココでは機械学習の習得に必要な範囲の情報理論の習得する。
- ランダムフォレスト
ランダムに選択された説明変数のエントロピーを最小化
するような閾値を決定し特徴量の重要度を自動で算出
- マルコフ確率場
画像内のノイズ除去等に用いるグラフィカルモデルとして利用される。
自己情報量 †
直感的に表現するとすれば「情報の珍しさ」の値
- 例えば、晴れている日の朝に「午後から雨が降る」情報を得た場合、珍しい=大きい。
エントロピー †
「自己情報量」の拡張で「事象の予想のし難さ」
- [事象の起こる確率]と[自己情報量]を掛け合わせたモノの総和
H(x)=Σ-P(xi)logP(xi)
- グラフは予想の難しい事象時に最大で、非一様分布の方がエントロピーが低い。
- 「平均情報量」や「シャノン・エントロピー」とも呼ばれる。
ダイバージェンス †
異なる確率分布P(x), Q(x)にどれだけの差があるのか?を考える情報量の1種。
- データが自然発生的であるため、ガウス分布に基づくと考えられている。
- 類似度が低かった場合はデータの分布の想定自体を疑う必要がある。
- 「相対エントロピー」や「KLダイバージェンス」、「KL情報量」とも呼ばれる。
KL:カルバック・ライブラー
独立同時分布仮定 †
(IID仮定)
- 学習データに対して置かれた仮定。
- 各データのサンプルが互いに独立
- 訓練データとテストデータが同一の分布に従う
- 訓練データと検証データを同じモデルで扱うことができる。
- ただし、コレによって過学習が発生し得る。
統計的機械学習 †
- 機械学習のうちデータの確率的な生成規則を学習するもの
- 統計的機械学習のモデルは統計モデル・生成モデルとも呼ばれる。
統計モデル †
- 複数の変数同士の関係を定量的に表す。
- 統計モデルでよく使われるのは回帰モデル
確率的生成モデル †
- 生成モデル
データがある、ということは、そのデータを生成する原因がある、と考える。
- 確率的モデル
ある確率密度分布があって、その分布に従い、データが生まれてくるような、モデル。
識別関数、識別モデル、生成モデル †
機械学習で分類問題を解く場合、
- 識別関数
パーセプトロン(PPN)、サポートベクターマシン(SVM)などは、
線形判別関数を使用して分類する識別的アプローチ。
- 識別モデル
識別モデルによるアプローチが一般的な手法となっている(決定木など)
・条件付き確率(Xが観測されたときクラスYが実現する確率)を学習する。
・ロジスティック回帰分析(Sigmoid関数を使用している。
・DNN、CNNなどSigmoid関数、Softmax関数を使用したもの。
・分類がどのように間違っているのかを知るすべが無い。
数理最適化 †
以下のような方法で関数(的なモノ)のパラメタの更新(学習)をおこなう。
最小二乗法 †
サンプル・データとの誤差が最小になる平均値を探す。
最尤法 †
- サンプル・データが得られる確率(尤度)が最大になる平均値を探す。
- 最尤推定においては、ダイバージェンスの最小化を目的関数とする。
※ 単回帰・重回帰の近似(最小二乗法)、DNNを用いた近似(勾配降下法、誤差逆伝播法)