機械学習（machine learning）のバックアップ(No.100)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る（人工知能（AI）/ 統計解析 / ベイズ統計）
- 機械学習（machine learning）
- 深層学習（deep learning）
- 強化学習（Reinforcement Learning）
- 生成系AI（Generative AI）

目次 †

目次
概要
- 定義
- 応用例
詳細
機械学習の分類
統計と機械学習
- 基礎的な違い
  - 統計学
  - 機械学習
- 使い分け
  - 統計
  - 機械学習
特徴量の選択とエンジニアリング
モデル評価のエンジニアリング
モデル・チューニングのエンジニアリング
- チューニング
- モデル評価のエンジニアリング
MLOps（エンジニアリング部分の自動化
- CX
  - CI/CD
  - CT/CM
- ポイント
課題（を解決するクラスド・サービス
参考

↑

概要 †

機械学習（machine learning）について纏める。

第２次人工知能ブームでの人工知能

人が、その機械は何を学習するか？というのを予め定義する。

注目スべきデータ（特徴量）の選定タスクは人間が担う。

「訓練データ」として知られる
サンプルデータに基づいて数学モデルを構築する。

学習の方向性を人が思い通りにコントロールがし易い。

明示的な指示を用いることなく、
- パターン（統計モデル）と
- 推論（アルゴリズム）に

依存して、特定の課題を効率的に実行する

↑

定義 †

アーサー･サミュエル
｢明示的にプログラムしなくても学習する能力を､コンピュータに与える研究分野｣

トム･ミッチェル
タスクT（推論）とパフォーマンス測定P（損失関数と評価指標）に関連する経験E（学習データ）から学習する

↑

応用例 †

↑

詳細 †

↑

理論 †

↑

情報理論 †

情報理論は数学を用いて「情報」の本質を明らかにする学問。
応用先には効率の良い情報通信や通信時の情報誤りの訂正等がある。
ココでは機械学習の習得に必要な範囲の情報理論の習得する。

機械学習において、情報理論を元にした手法
- ランダムフォレスト
  ランダムに選択された説明変数のエントロピーを最小化するような閾値を決定し特徴量の重要度を自動で算出
- マルコフ確率場
  画像内のノイズ除去等に用いるグラフィカルモデルとして利用される。

自己情報量
直感的に表現するとすれば「情報の珍しさ」の値

情報が珍しいほど大きく珍しくないほど小さい
```
I(x)=-logP(x) ※ 0≦P(x)≦1
```

例えば、晴れている日の朝に「午後から雨が降る」情報を得た場合、珍しい＝大きい。

条件付き確率で事象の発生確率Pを表現すると、

P(午後から雨が降る|午前は晴れている)＜P(午後から雨が降る|午前も雨が降る)

エントロピー
「自己情報量」の拡張で「事象の予想のし難さ」

[事象の起こる確率]と[自己情報量]を掛け合わせたモノの総和
```
H(x)=Σ-P(xi)logP(xi)
```

グラフは予想の難しい事象時に最大で、非一様分布の方がエントロピーが低い。
「平均情報量」や「シャノン・エントロピー」とも呼ばれる。

ダイバージェンス
異なる確率分布P(x), Q(x)にどれだけの差があるのか？を考える情報量の１種。

データの分布とガウス分布の類似度をダイバージェンスの考え方で測る。
```
D(P||Q)=ΣP(x)log(P(x)/Q(x))
```

データが自然発生的であるため、ガウス分布に基づくと考えられている。
類似度が低かった場合はデータの分布の想定自体を疑う必要がある。
「相対エントロピー」や「KLダイバージェンス」、「KL情報量」とも呼ばれる。

↑

独立同時分布仮定 †

（IID仮定）

学習データに対して置かれた仮定｡
- 各データのサンプルが互いに独立
- 訓練データとテストデータが同一の分布に従う

訓練データと検証データを同じモデルで扱うことができる｡

↑

統計的機械学習 †

統計解析、ベイズ統計などをベースにした計算統計学

機械学習のうちデータの確率的な生成規則を学習するもの

統計的機械学習のモデルは統計モデル・生成モデルとも呼ばれる。

統計モデル
- 複数の変数同士の関係を定量的に表す。
- 統計モデルでよく使われるのは回帰モデル

確率的生成モデル
- 生成モデル
  データがある、ということは、そのデータを生成する原因がある、と考える。
- 確率的モデル
  ある確率密度分布があって、その分布に従い、データが生まれてくるような、モデル。

ベイジアンネットワーク（BN）などの確率的構造モデルは
「階層的な木構造の確率的な確率的生成モデル」らしい。

識別関数、識別モデル、生成モデル
機械学習で分類問題を解く場合、

識別関数
パーセプトロン（PPN）、サポートベクターマシン（SVM）などは、
線形判別関数を使用して分類する識別的アプローチ。

識別モデル
識別モデルによるアプローチが一般的な手法となっている（決定木など）
・条件付き確率（Xが観測されたときクラスYが実現する確率）を学習する。
・ロジスティック回帰分析（Sigmoid関数を使用している。
・DNN、CNNなどSigmoid関数、Softmax関数を使用したもの。
・分類がどのように間違っているのかを知るすべが無い。

生成モデル
何らかの分布に基づいてデータが生成されると考える。
・入力データの分布（生成モデル）を学習する。
　・データは背後にある確率分布から生成されたものと仮定。
　・データの背後にある同時確率分布は生成モデルと呼ばれる。
　・与えられているデータから未知の生成モデルを予測できる。
　・学習と生成の間の２つの確率分布間の差異を数理最適化で最小化するなど。
　・教師なし学習（外れ値検知、画像生成）などにも応用できる。
　・生成モデルにより（クラスに属する）擬似的データを生成できる。
・画像生成やテキスト生成に応用できる。
　・画像生成系：VAE（Variational auto-encoder）、DRAW、GAN（Generative Adversarial Network
　・テキスト生成系：BERT（Bidirectional Encoder Representations from Transformers）、GPT（Generative Pre-trained Transformer）
・一方で、数学的な操作が面倒など、気楽に使えないデメリットもある。
・基本的にナイーブベイズモデルなど、ベイズモデルは総じて生成モデル。

↑

数理最適化 †

以下のような方法で関数（的なモノ）のパラメタの更新（学習）をおこなう。

最小二乗法：
- サンプル・データとの誤差が最小になる平均値を探す。

最尤法：
- サンプル・データが得られる確率（尤度）が最大になる平均値を探す。
- 最尤推定においては、ダイバージェンスの最小化を目的関数とする。

※ 単回帰・重回帰の近似（最小二乗法）、DNNを用いた近似（勾配降下法、誤差逆伝播法）

↑

参考? †

↑

用語 †

↑

特徴量 †

注目スべきデータ、機械学習的に言った説明変数

特定の概念を特徴づける変数、問題の解決に必要な本質的な変数

学習データにどのような特徴があるかを数値化したもの。

モデルをy = f(x) とすると、xが説明変数でyが目的変数

非構造化データでは特徴量（説明変数）はベクトル化される。

機械学習では入力された学習データから特徴量と呼ばれる数値を抽出する。
- 特徴量の抽出は人間が設計し実装する必要がある。
- 抽出した特徴量を元に機械はパターン・経験則をモデルを使って学習する。

である。

この特徴量を発見できれば、
- あらゆる問題の解決につながったり、
- パターン認識精度の向上や、
- フレーム問題の解決につながったりする

と期待されている。

↑

パラメタ †

重みとも呼ばれるモデルの学習実行後に獲得される値。

↑

ハイパーパラメタ †

各アルゴリズムに付随して、アルゴリズムの挙動を制御するための値。
学習実行前に設定した値によって学習実行後のパラメタが変わってくる。

https://github.com/yomaki/azure-ml-python-handson/blob/main/module2%20Training%20model%20with%20Python%20and%20scikit-learn.ipynb

例えばロジスティック回帰モデルを学習する場合は regularization rate というハイパーパラメタを使ってモデルのバイアスを軽減できる。
CNNの例だと、learning rate とbatch size によって重み付けやミニバッチで処理するデータのサイズを制御できる。
ハイパーパラメタはモデル学習のパフォーマンス、モデルの学習時間に強く影響する。
DNNの層のサイズや層の深さなどもハイパーパラメタらしい。
一般的には複数の候補の組み合わせを試すことで適切な設定値を探す。

深層学習におけるハイパーパラメタの例

↑

パラメトリック・モデル †

枠組みをあらかじめ決めてパラメータだけを学習するモデル｡
機械学習のモデルは基本的にパラメトリック・モデル

↑

ノンパラメトリック・モデル †

関数の枠組みそのものを推定するモデル｡
母集団に仮定を置かないため汎用性がある。
パラメトリックモデルよりも多くのデータが必要

↑

アルゴリズム †

モデルを作成するアルゴリズム
モデルを最適化する方法

アルゴリズムはモデルに含まれることがある。
分離した方が系統的にモデリングを理解できる。

↑

適合 †

複雑なものの認識や、常値の検出
たくさんの情報の中から必要なものを探す
予測、フォーキャスト（予想や見込み）、意思決定支援
言葉を使ったコミュニケーション
新しい体験を作り出したい場合

↑

限界 †

データの中にあるバイアス（を、そのまま学習
プリシジョンとリコールのトレードオフがある（分類問題）。
コールド・スタートによる誤検知がある（協調フィルタリング）。
モデルの検証のためのフィードバックループが必要。
Exploration(冒険、探索)とExploitation(搾取、利用)

↑

汎化性能 †

学習に使用したデータだけではなく、新たなデータに対する予測性能。

モデルの未知のデータへのあてはまりの良さ。
汎化性能は学習データとは別に収集された検証データでの性能を図ることで評価。

↑

未学習 †

（学習不足、アンダーフィッティング）

モデルの表現力が低いため、表現力の高いモデルを利用する。

予測誤差を生む要因のバリアンス（Variance）対策の正則化し過ぎで性能が出ない事も。

参考
- 機械学習で「分からん！」となりがちな正則化の図を分かりやすく解説 - Qiita
  https://qiita.com/c60evaporator/items/784f0640004be4eefc51

↑

過学習 †

（過剰適合、過適合、オーバーフィッティング）

汎化能力の不足に起因する汎化できていない状態を指す（特化し過ぎている）。
- 訓練誤差を最小化（特化）
- 汎化誤差を最小化（汎化）

統計学において、非常に複雑な非線形性の高いモデルを用いた場合、
データが元々持っている誤差や不確実性と言った、本来説明ができない部分まで
フィットするような誤ったモデルが構築されてしまう場合がある。

機械学習において、学習精度がある一定の精度まで向上すると、
以降は未知のデータへの対応力を失ってしまう現象。

対策
- 学習データの量を増やす。
- 不要な変数を削除し表現力を抑止。
- 正則化法を利用して表現力を抑止。

↑

内挿と外挿 †

あるデータを使って訓練した機械学習モデルにおいて、
その訓練データ（入力データおよび教師ラベル）の数値の

内挿（Interpolation）
- 範囲内で出力を求めることを指す。
- 最も一般的で容易に適用できるものは、一次関数（直線）による内挿（直線内挿）。

外挿（Extrapolation）
- 範囲外で出力を求めることを指す。
- 外挿の信頼性はその予測信頼区間によって表示される。
  - 予測信頼区間は理論的にとりえない値を含む場合があり、
  - 外挿結果をそのまま用いることは誤った結果を導く可能性がある。

↑

予測誤差を生む要因 †

バイアス（Bias）
思い込みは過学習なのか未学習なのか。ココでは後者らしい。
- モデルの表現力不足、未学習のモデルによって生じる｡
- 例えば、3次関数に従ったデータを線形回帰した時（未学習）｡
- 表現力の低いモデルを利用しているため意味のあるパターンを拾いきれていない｡

バリアンス（Variance）

学習データに過剰適合することによって生じる誤差｡

例えば、
- 3次関数に従ったデータを7次関数で多項式回帰した時（過学習）
- 正則化によって、モデル複雑化を抑制、より単純（低次元）モデルにする。

表現力が高すぎるモデルを利用しているために、
学習データにしかないパターンを拾ってしまう｡
- 重み（パラメタ）の値が極端になっている
- サンプル数に対して説明変数が多過ぎる。

ノイズ（Noise）
- データに混入している本質的でない情報｡
- 本質とノイズの情報は混ざっており区別できない｡
- 機械学習の手法では取り除くことができない｡

↑

実行手順 †

※ より専門的なプロセスについては、CRISP-DMを参照。

↑

データ作成 †

良いデータの準備が性能発揮の生命線となる。

探索的データ解析（EDA）
データの特徴を探求し、構造を理解する。

前処理
前処理の良し悪しも性能を大きく左右する。

データセットを
- 検査（補完や除去）
- 拡大、次元削減、標準化・正規化（特徴量の選択とエンジニアリング）

非構造化データは数値化される（通常はスカラではなくベクトル、テンソル）。
例えば、テキストデータのベクトル化には色々な手法があり永遠のテーマとなっている。

データの分割
- 訓練データ：６
- 検証データ：２
- テストデータ：２

↑

学習の実行 †

機械学習システムの選択

訓練を繰り返しパラメタを更新＆収束

得られたモデルを検証データで評価
- 過学習のチェック
- モデルに手を加える
- チューニング、アンサンブル学習

最終評価を行い採用 / 不採用

↑

利用と追加学習 †

↑

学習方法 †

↑

アノテーション †

優れたアルゴリズムを用いても誤った教師データで学習すると
正しく学習できず精度の高い学習モデルが作れない。

アノテーションとは、学習のため教師データを作成する（タグを付与する）こと。

データに付与するタグを標準化、均一化しないと誤った推論結果となる。

労働集約的
- 外注（アウトソーシング）するかしないか？
- ただし、クォリティ・アシュアランスには要注意

アノテーションの質を高める方法

コストが掛かっても正しくアノテーション
- プロによるアノテーション
- 高精度なアノテーション
- 多数決による品質の管理方法
  ・実際は能力に差があるという前提で、アノテーターの能力を考慮。
  ・複数のアノテーターが同じ能力を持っていると仮定した場合、
  　良い品質を得るために沢山の人が必要となる（コスト）。

異なる種類のデータ形式よるタグ付け
- 画像データを用いる
- テキストデータを用いる
- 構造化データを用いる

データの意味は普遍的ではなく目的によって変わる。
→ ターゲット層に適したバイアス（推し）をかけたアノテーション

↑

アクティブ・ラーニング †

本番運用しながら自然に追加学習できる仕組み

AIのアウトプットを全て人間がチェックし、間違っていたものを修正して追加学習データとして利用
AIのアウトプットの信頼度(Confident)の値が低いデータのみを人間がチェックして追加学習。

↑

アンサンブル学習 †

モデルの汎化性能を向上させるため個々に学習した複数のモデルを融合させる方法
「複数のモデルによる各予測結果」をアンサンブル（≒組合せ）して「最終的な予測結果」を得る。
理論立ては"まだ"だが、経験的に過学習を防ぎ、汎化性能を向上させることが知られている｡

バギング
複数の弱学習器を並列作成し予測を組み合わせ、各予測を平均や投票で最終予測結果を得る。

複数のモデルを学習し
平均（回帰の場合）または多数決（分類の場合）することによって
過学習の傾向が打ち消しあって最終的に丁度、良い決定境界をつくる。

ブートストラップ（サンプリング）
データ全体の中から重複を許してtrainデータを選ぶ手法｡
ブートストラップによってtrainデータをつくる｡

ブースティング
弱学習器を連続的に学習（≒何度も訂正）、順次作成し、精度を向上させる手法。

学習器の精度を向上するために誤分類データに注意を払って次の学習を行う。
一つのモデルの間違いをうまく訂正するようなモデルを次々につくる｡
大元のモデルを最適化するための補助的なモデルを逐次的に学習させる｡
バギングより高い精度が見込めるが、学習に時間がかかる。

スタッキング（ブレンディング

ブレンディング
・バギングは平均 / 投票でアンサンブル
・ブレンディングは統計 / 機械学習モデル（一般的には線形モデル）でアンサンブル

スタッキング
３層以上のレベル数でブレンディング
・いくつかのFold（グループ）にデータを分けて、それぞれを各モデルで予測
・それぞれの予測値を新たな特徴量とする。
・何回か繰り返して最終アウトプット算出。

決定木分析におけるアンサンブル学習

↑

モデルの統合・分割 †

色々なデータを使う場合、色々なモデルが必要になる。

統合
一つの機械学習のモデルに
色々なデータを入れて予測値を出す。

分割
人間が非常に理解し易くなる。

↑

活用例 †

↑

データマイニング †

↑

エキスパート・システム †

専門分野の知識を取り込み、分野の専門家のように振る舞うプログラム

歴史
DENDRAL → Mycin → Cycプロジェクト

エドワード・ファイゲンバウム、DENDRAL、1960年代
未知の有機化合物を特定する
スタンフォード大学、マイシン（Mycin）1970年代
血液中のバクテリアの診断支援
ダグラス・レナート、Cycプロジェクト 1984年～
一般常識をコンピュータに取り込む。30年以上経った今も継続している。

知識ベース

専門知識が豊富であればあるほど暗黙的で矛盾があり、知識ベースを保守が困難に。

一般常識については、そもそも暗黙的で（明文化されていない）ことが明らかに。

知識（概念体系）を扱うための方法論（意味ネットワークやオントロジー）の研究が活性化

意味ネットワーク（semantic network）：
関係を定義可能なUMLクラス図の様な
・is-a：推移率が成立する（継承とも）。
・part-of：推移率が成立するとは限らない、最低５つのpart-ofがある（属性とも）。
オントロジー（ontology）：概念化の明示的な仕様
上記と同様の概念体系を言語状に記述可能なフォーマット
・ヘビーウェイト・オントロジー：共有のため哲学的な考察が必要で個別に定義しない
・ライトウェイト・オントロジー：正当性について深い考察は行わない（ウェブマイニング等で活用）

エキスパート・システムの例

IBMのWatson（ワトソン）：
- 2011年：テレビ・クイズ番組「Jeopardy!」で2人のチャンピオンと対戦し勝利した。
- Wikipediaから生成されたライトウェイト・オントロジーを用いて、
  質問に含まれるキーワードから関連しそうな回答を高速に検索する。

東ロボくん：
- 東大入試合格を目指すビッグデータと深層学習を利用した統計的学習の人工知能
- 私大合格は可能だが東大合格に必要となる読解力が致命的になく、未達。

↑

不正会計の検知 †

Li et al

概要
- 24個の会計情報を使ったロジスティック回帰モデル
- サポートベクターマシンで不正会計確率を推定
- 一度スコアを求めるかどうかというのが違いになる。

特徴
1. 手を加えていない会計情報そのものと
  不正・非不正の情報で構成される大量データを
  訓練データとテストデータに分け訓練データでモデルを作り
  テストデータでその検知能力を調べるという一般的な研究
  ・訓練データ：1991年から2002年までのデータ
  ・テストデータ：2003年から2005年までのデータ
2. アンダーサンプリングを行っている。
  訓練データの1と0（不正と非不正）が同数になるようにサンプリング

実務家の方法を取り入れることで
先行研究よりも正判別確率の高いモデルを構築
（東海林・中村・尾崎（2020）
- 不正会計を不正手段の種類別に認識
- 貸借対照表に不正会計の歪みが蓄積されることを利用して
  その歪みから得られる違和感により不正会計を経験的に認知

正判別率の上げかた。
- 歪みと違和感を変数化して特徴量にした。
- 不正手段を売上過大計上に限定した。
- 目的変数を不正群・非不正群ではなく
  非不正群から利益調整群を除いた1,0データとした。

↑

ベイズ云々の活用例 †

迷惑メール
診断・コールセンター
レコメンド
社会現象・データ
顧客行動理解

↑

機械学習の分類 †

分類１	分類２	用途	アルゴリズム
教師あり学習	回帰	・売上予測・人口予測・需要予測	・線形回帰・非線形回帰・ニューラルネットワーク回帰
教師あり学習	分類	・画像分類・故障診断・顧客維持	・ロジスティック回帰・サポートベクターマシン・ランダムフォレスト
教師なし学習	クラスタリング	・レコメンド・顧客セグメンテーション・ターゲットマーケッティング	・k-means
教師なし学習	次元削減	・特徴量エンジニアリング	・主成分分析
強化学習		・ゲーム・広告・自動運転・リアルタイム判断	・Q学習・モンテカルロ法

↑

学習データでの分類 †

コンピュータとその周辺の技術・情報が発達してきたため出てきた概念
互いに独立なものではなく、高度に組合せて使用することも可能。

↑

教師あり学習 †

（supervised learning）

小脳の働きを模倣しているらしい。

教科書を使った勉強のように、
「結果と予測すべき答え」（訓練データ）が与えられ、
それ（≒教師）に至るためのモデルを構築する学習手法

「予測すべき答」は
- ラベル（タグ）とも呼ばれる
- 人間の専門家が訓練例にラベル付け（タグ付け）して提供
- このラベル付け（タグ付け）の作業をアノテーションとも呼ぶ。

未知のデータ「x」にそれを適用して、予言 y = f(x) を与えることができる。

予言 y と、出力 ȳ の誤差が小さくなるように学習が進められる。

異常・不正の検出など、正例が少ないケースでは適合しない（若しくは工夫が必要

↑

教師なし学習 †

（unsupervised learning）

大脳皮質の働きを模倣の働きを模倣しているらしい。

データ自体に構造・特徴があり、そのデータを分類・識別する。

与えられたデータセット（訓練データ）の中に予測すべき正解が与えられないまま、
データの背後に存在する本質的な構造かをデータ同士の関係から導き出すという学習

評価規範Cが与えられている。評価規範Cを最適化するように学習が進められる。

自分自身を教師データにする自己教師型を教師なし学習に分類することもある。

判断ではなく、データマイニングなどグルーピングを行う、
クラスタ分析、主成分分析、対応分析などは教師なし学習

教師あり学習と比べると、
- 結果の解釈が難しく、分析者の主観的な解釈が必要となる。
- 異常・不正の検出など、正例が少ないケースにも適合する。

↑

半教師あり学習 †

（semi-supervised learning）

一部のデータにのみ出力の正解が付与されたデータを用いる手法｡
- ラベルありの例とラベルなしの例を両方扱える。
- すべてのデータにラベルを付けなくても良いので、効果的な学習が可能。

教師あり学習と教師なし学習を組み合わせて学習する
- 主成分分析などの教師なし学習によって事前学習を行い、教師あり学習の精度向上を図る｡
- 教師ありデータを使ってモデルを作り、それを使って教師なしデータに対する推論の結果を取得
  精度の高いデータを正解ラベルとして採用し、教師ありデータとして使ってモデルを再学習する。

分類問題（識別モデルと生成モデル）で使われる。
（回帰分析の半教師あり学習で同じようなメリットを得るのは難しい）
- 説明変数の事前分布が明確になる
- クラス間の境界が明確になる (クラス分類のみ)
- モデルの安定性が向上する
- モデルの適用範囲が広がる

↑

自己教師あり学習 †

（self-supervised Learning）

ラベル無しデータを使う教師なし学習の一種
「常識」を獲得するための重要な手法
データ自身に隠されている構造を読み取り、
次にくるものを予測する学習を行う。

self-xxxxxxx Learningと言うアルゴリズムはコレの場合が多い。

↑

利用方法での分類 †

≒モデルの種類。
利用：recall、想起、適用
教師データに対するテストデータに適用
「知りたい情報」の設定に依存して多様。
深層学習では、ほとんどのことができる。

↑

推定 †

ある事実を手掛かりにして、推し量って決めること。

プリミティブ？
- 分類
  離散値の予測（特徴を推定する）問題。

回帰
連続する変数の予測（間の相関関係を推定する）問題。

ベイズ云々
- ベイジアンフィルタ
- ベイズモデル
- ベイジアンネットワーク
  - 統計的機械学習手法の一つ
  - 説明可能性が高い機械学習手法
  - ベイジアンネットワークを自動的に構成
    ・グラフ構造の探索
    ・条件付き確率表の推定

↑

分類 †

分類
- 離散的な応答を予測
- 教師あり学習を用いる
- 深層学習を使った分類もある（物体識別）。

種類

ロジスティック回帰

サポートベクターマシン（SVM）

複数の決定木を使用するモデル
アンサンブル学習で、複数の決定木を使用する。

判別分析
特徴量のデータの特性から、特定の対象とそうでない対象をグループ分けする。

k近傍法（k-NN）
・教師あり学習の中でもシンプルなアルゴリズムの一つ。
・似た名称のk平均法と同様に、ユークリッド距離を使う。
・「近くにあるデータは似ているはずだ」という発想に基づいて、
　ある未知のデータをデータセットの指定の数のクラスに多数決で分類。
　・K近傍法のKは近くにあるデータをK個集めるという意味
　・この多数決により分類を決定するので、教師ありだが学習はしない。

ベイジアンフィルタ

クラスタリング
- 最も一般的な教師なし学習手法
- 探索的データ分析により、データ内の隠れたパターンやグループ構造を発見する。

種類

k平均法（k-means clustering）
・非階層クラスタリングの代表的な手法の1つ。
・分析担当者はクラスタ数を設定する。
・似た名称のk近傍法と同様に、ユークリッド距離を使う。
・データセット中から類似データを指定の数のクラスタを作る

ウォード法
・階層クラスタリングの代表的な手法の1つ。
・トーナメント表を作るような手順で、
　① データ数＝クラスタ数で開始し、距離の近い２つを統合して行き、
　② 全てのデータが１つのクラスタに統合された時点で終了する。
・クラスタ間の階層関係をツリー構造で表す。
・出来上がった樹形図をデンドログラムと呼ぶ。
・クラスタ数が事前には分からない場合において有効

トピックモデル
・名前の由来は、モデルが、文書データを対象とした際、各文書は
　「複数の潜在的なトピックから確率的に生成される」と仮定したいるため。
・複数のクラスタにデータを分類するのが大きな特徴。
・代表的な手法に潜在的ディリクレ配分法がある。
・単語から分類の確率、類似度が求められる。
・レコメンドシステムに用いることもできる。

混合ガウスモデル (GMM)
・多くの場合に使用される。
・k平均法を活用したクラスタリングなどよりも、より適切な場合がある。
・以下のケースにおいて有効。
　・データポイントが2つ以上のクラスタに属している可能性がある場合や、
　・クラスタのサイズがさまざまで、クラスターの相関構造が異なっている場合
・ガウス分布（正規分布）を線形重ね合わせによって、
　どうデータポイントが分布しているかパラメタを推定する。
・クラスタリングだけでなく、データセットの確率密度分布を得ることができる。

隠れマルコフモデル (HMM)
・確率モデルの１つであり、
・観測されない（隠れた）状態をもつマルコフ過程を指す。
・観測された記号系列の背後に存在する状態の遷移系列を推測する

自己組織化マップ
・ニューラルネットワークに基づくクラスタリングの手法
・入力データの類似度をマップ上での距離で表現し、自動的に分類
・人が識別することが難しいような、高次元データをクラスタリング可能。

ファジィ c 平均クラスタリング
・データセットをN個のクラスタにグループ化するデータクラスタリング手法
・クラスタ数が既知であり、クラスタに重なりがある場合に有効。
・データセット内のすべてのデータポイントが、すべてのクラスタに属している。
　・クラスタの中心に近いデータは、そのクラスタに属する度合いが高く、
　・クラスタの中心から離れた別のデータ点は、そのクラスタに属する度合いが低い。
・クラスタの中心をランダムに推測、各データポイントのメンバーシップ等級の割り当てを反復。
・データポイントからクラスタ中心までの距離をメンバーシップで重み付けした目的関数を最小化。

↑

回帰 †

連続的な応答を予測
教師あり学習を用いる
深層学習を使った回帰もある。

種類
- 線形回帰
  直線で予測。
  - 連続する目的変数を複数の説明変数を用いて予測、説明する
  - 1つ以上の独立した説明変数を使用し、線形方程式の係数を推定

非線形回帰
曲線で予測。
- 線形パラメタとの関係を適切にモデル化できない場合
- 連続する目的変数と1つ以上の説明変数との間の
  非線形な関係を表す方程式を用いて予測、説明する。
- パラメトリック非線形回帰
  目的変数（単変量または多変量）を
  非線形パラメタと1つ以上の説明変数の
  組み合わせとして関数化して予測、説明する。
- ノンパラメトリック非線形回帰
  機械学習の手法が使用される。

正則化を施した線形回帰
- Ridge回帰
- Lasso回帰
- Elastic Net回帰

ステップワイズ回帰
- 精度の高いモデルを選択する回帰分析の手法
- 自動的に説明変数を1つずつ追加、削除

複数の決定木を使用するモデル
（この場合は分類木ではなく回帰木か）

時系列データを対象とする回帰モデル
- 自己回帰（AR）モデル：単変量の時系列データを対象とする回帰モデル
- ベクトル自己回帰（VAR）モデル：ARモデルを多変量に拡張したモデル

↑

認識 †

パターン認識など。

物事をはっきりと見分け、判断すること。
主体あるいは主観が対象を明確に把握すること。

Googleの猫：self-taught learning（自己教示学習）
≠ self-supervised Learning（自己教師あり学習）

↑

創出 †

GANとかの生成モデル？
物事を新しく造り出すこと。

↑

自己組織化 †

物質や個体が、系全体を俯瞰する能力を持たないのに関わらず、
個々の自律的な振る舞いの結果として、秩序を持つ大きな構造を作り出す現象
行動規範型ロボット的な自己修復機能をもった自己組織化ロボットなどへの応用

↑

その他 †

トランスダクション（トランスダクティブ推論）
観測された具体的な（訓練）例から
具体的かつ固定の（テスト）例の
新たな出力を予測しようとする。

マルチタスク学習
関連する複数の問題について同時に学習させ、
主要な問題の予測精度を向上させる。

↑

統計と機械学習 †

↑

基礎的な違い †

どちらも
- データを使って問題を解決する
- 数学的な手法を使って質問に答えることに関心がある

ゴールと貢献の仕方が違う。

↑

統計学 †

統計学か数学の一環
データを“説明”すること（推定と推論）を強調
- 限られた標本から調査したい母集団全体の特徴を推測する。
- データを（学習データと検証データに）分割しない。
- 過学習の可能性を気にしない。が、疑似相関は気にする。

説明変数の数が大きくなると多変量解析を使った変数選択手法では多重検定のリスクが大きくなる。

↑

機械学習 †

コンピュータ・サイエンスの一環
データから“予測”することを強調
- 変数間の関係性やルールなどを機械学習による予測モデルに学習させ予測する。
- データを（学習データと検証データに）分割する。
- 過学習の可能性を気にする。が、疑似相関は気にしない。

説明変数の数が多くなる場合は、機械学習を含む解析が使える。

↑

使い分け †

予測モデルの使い分け。

↑

統計 †

モデルとデータ

モデル
- モデルとデータ全体を解釈したい。

データ

量
・データのサンプルサイズが大きくない。
・トレーニングデータを持っていない。

質
・不確実性やランダム性がある。
・信号対ノイズ比（ノイズに対するシグナルの割合）が大きくない。

目的
- 不確実性や予測変数の影響度を調べる必要がある。
- 少ない数の変数の影響度を切り離して評価したい。

↑

機械学習 †

モデルとデータ

モデル
推論の精度に興味があり、モデルへの興味は薄い。
- 複雑な構造の内部パラメタに大量のデータの情報を反映できる。
- 十分なデータを使用できれば、精度な予測・分析ができる可能性が高い。
- トレードオフとしてモデル構造が複雑で解釈性が犠牲になりがち。

データ

量
大量のデータを使用して学習することが期待されている。
・データのサンプルサイズが大きい。
・膨大なトレーニングデータで学習できる。

質
・強い不確実性やランダム性を持たない。
・信号対ノイズ比（ノイズに対するシグナルの割合）が大きい。

目的
- 不確実性の推測や選択した予測変数の影響度には興味が無い。
- 予測がゴールで少ない数の変数の影響は問題ではない。

↑

特徴量の選択とエンジニアリング †

今あるデータの特徴量からドメイン知識などを生かして

特徴量選択：特徴量を絞ったり
特徴量エンジニアリング：新しくデータの特徴量を作成したり

することで、予測性能、すなわち汎化性能を向上させる作業。

↑

CRISP-DM上の †

↑

データの理解 †

↑

データの準備 †

↑

テクニック †

↑

欠損値の処理 †

記録されなかった値を含むデータの削除や補完

Pythonのライブラリで処理可能。
- 欠損率の計算と確認
- データのクリーニング（削除や補完）

↑

相関係数を確認 †

ピアソンの積率相関係数
相関係数（2つの量的変数間の直線的関連の程度を表す係数）

スピアマンの順位相関係数
各変量を順位に変換してピアソンの積率相関係数を求めたもの

↑

特徴量選択 †

相関係数を用いた特徴量選択
（多重共線性（マルチコ）対策

反復特徴量選択法
説明変数を増やしたり減らしたりを繰り返して予測精度を推し量りながら特徴量を選択する手法

変数増加法（前方選択法）
求められた特徴量重要度の高いものから一つずつ特徴量をデータセットから追加し、予測精度を測る手法

変数減少法（後方削除法）
求められた特徴量重要度の低いものから一つずつ特徴量をデータセットから取り除き、予測精度を測る手法

手法ベース特徴量選択法
正解ラベルと各特徴量の関係から、特徴量重要度を求める方法

決定木ベース

回帰系（Ridge回帰、Lasso回帰、ロジスティック回帰）の例
回帰係数（重み）から重要度を算出

↑

エンコーディング †

One-Hotエンコーディング

多クラスのカテゴリを0・1ラベルで表す特徴量として展開する。

One-Hotエンコーディング結果のデータをOne-Hotベクトルと言う。

Dummyコーディング、Effectコーディングがある。

Dummyコーディングでは最初の列を削除
- オール０ → 参照カテゴリ
- 多重共線性（マルチコ）を回避

Effectコーディングでは最初の列を削除
- オール０ → 欠損データ
- オール -1 → 参照カテゴリ
- 多重共線性（マルチコ）を回避、欠損データ対応

Pythonのライブラリで処理可能。

Featureハッシング
- One-Hotエンコーディングは高次になることで不安定になる。
- 説明変数をハッシュ値のビットフラグ的に表現し削減する。
- 衝突が起きる、直感的に理解できなくなる、などの問題がある。

Frequencyエンコーディング
- 各カテゴリ変数値の出現確率でエンコーディング
- Ranked frequencyエンコーディングは出現順位でエンコーディング
- 次元を増さずにエンコーディングでき線形・非線形どちらでも有効
- 外れ値に敏感だがRanked frequencyでは外れ値の影響も小さくなる。

Targetエンコーディング
- 各カテゴリ変数値の目的変数の情報（平均値）を使ってエンコーディングする方法
- リークを起こす可能性（訓練データで高い評価、テスト・データで低い評価）

ラベル・エンコーディング（Ordinalエンコーディング
- カテゴリに任意の（連番の）数値を割り当てる。
- 数値間の差が一定なのでカテゴリ間の差が一定でないものに対して有効でない。
- ラベル間の数値の大小関係を学んでしまうアルゴリズムでは使えない。

その他
- ビンカウンティング
- Nonエンコーディング

↑

特徴量作成 †

特徴量生成のパターン（数値変換）

単一変数

二値化
境目（閾値）を設け、"0"と"1"に分ける。

離散化
ある連続した値を不連続な（階級）値に分割する。

分位化
階級ごとの件数に大きな差がある場合、
データの分布に応じて階級を決める。

べき乗
指数が実数全体となる計算

スケール変換
- 特徴量がおおよそ同じスケール(寸法、尺度)になるように変換する手法
- StandardScaler?、Normalizer、MinMaxScaler?等の手法がある。
  ・StandardScaler?：特徴量の平均が0、分散が1、になるようにスケール変換
  ・Normalizer：ノルムが1になるようにスケール変換（デフォルトでは、L2正規化）
  ・MinMaxScaler?：特徴量の値が一定の範囲（0～1 or -1～1）に収まるようにスケール変換