機械学習（machine learning）のバックアップ(No.55)

統計解析、ベイズ統計などをベースにした計算統計学
機械学習のうちデータの確率的な生成規則を学習するもの
統計的機械学習のモデルは統計モデル・生成モデルとも呼ばれる。
- 統計モデル
  - 統計モデルでよく使われるのは回帰モデル
  - ベイズモデルも、この統計モデルらしい。
- 生成モデル
  - ベイジアンネットワーク（BN）などの確率的構造モデルは
    「階層的な木構造の確率的な生成モデル」らしい。

↑

数理最適化 †

データに対するモデル出力の誤差を定義し、
誤差を最小化するようにパラメタの更新（学習）をおこなう。
誤差を計算する関数（損失関数）を最小化する。

※ DNNを用いた近似（勾配降下法、誤差逆伝播法）

↑

不明な点 †

回帰モデルのような関数を用いた近似（最小二乗法）、最尤法は、統計的機械学習？数理最適化？

回帰モデルは統計モデルとある。
回帰モデルは数理最適化ではない？

最小二乗法と最尤法の違い
- 最小二乗法：サンプル・データとの誤差が最小になる平均値を探す。
- 最尤法：サンプル・データが得られる確率（尤度）が最大になる平均値を探す。

決定木などはナニに分類されるのか？
（どうもクラスの境界を学習する「識別モデル」になるらしい。

↑

用語 †

↑

特徴量 †

注目スべきデータ、機械学習的に言った説明変数

特定の概念を特徴づける変数、問題の解決に必要な本質的な変数

学習データにどのような特徴があるかを数値化したもの。

モデルをy = f(x) とすると、xが説明変数でyが目的変数

非構造化データでは特徴量（説明変数）はベクトル化される。

機械学習では入力された学習データから特徴量と呼ばれる数値を抽出する。
- 特徴量の抽出は人間が設計し実装する必要がある。
- 抽出した特徴量を元に機械はパターン・経験則をモデルを使って学習する。

である。

この特徴量を発見できれば、
- あらゆる問題の解決につながったり、
- パターン認識精度の向上や、
- フレーム問題の解決につながったりする

と期待されている。

↑

パラメタ †

重みとも呼ばれるモデルの学習実行後に獲得される値。

↑

ハイパーパラメタ †

各アルゴリズムに付随して、アルゴリズムの挙動を制御するための値。
学習実行前に設定した値によって学習実行後のパラメタが変わってくる。

https://github.com/yomaki/azure-ml-python-handson/blob/main/module2%20Training%20model%20with%20Python%20and%20scikit-learn.ipynb

例えばロジスティック回帰モデルを学習する場合は regularization rate というハイパーパラメタを使ってモデルのバイアスを軽減できる。
CNNの例だと、learning rate とbatch size によって重み付けやミニバッチで処理するデータのサイズを制御できる。
ハイパーパラメタはモデル学習のパフォーマンス、モデルの学習時間に強く影響する。
DNNの層のサイズや層の深さなどもハイパーパラメタらしい。
一般的には複数の候補の組み合わせを試すことで適切な設定値を探す。

深層学習におけるハイパーパラメタの例

↑

アルゴリズム †

モデルを作成するアルゴリズム
モデルを最適化する方法

アルゴリズムはモデルに含まれることがある。
分離した方が系統的にモデリングを理解できる。

↑

適合 †

複雑なものの認識や、常値の検出
たくさんの情報の中から必要なものを探す
予測、フォーキャスト（予想や見込み）、意思決定支援
言葉を使ったコミュニケーション
新しい体験を作り出したい場合

↑

限界 †

データの中にあるバイアス（を、そのまま学習

プリシジョンとリコールのトレードオフがある。

コールド・スタートによる誤検知がある。

モデルの検証のためのフィードバックループが必要。

Exploration(冒険、探索)とExploitation(搾取、利用)

↑

過学習 †

（過剰適合、過適合、オーバーフィッティング）

汎化能力の不足に起因する汎化できていない状態を指す（特化し過ぎている）。

統計学において、非常に複雑な非線形性の高いモデルを用いた場合、
データが元々持っている誤差や不確実性と言った、本来説明ができない部分まで
フィットするような誤ったモデルが構築されてしまう場合がある。

機械学習において、学習精度がある一定の精度まで向上すると、
以降は未知のデータへの対応力を失ってしまう現象。

↑

予測誤差を生む要因 †

バイアス（Bias）
- モデルの表現力不足によって生じる誤差｡
- 例えば、3次関数に従ったデータを線形回帰した時（未学習）｡
- 表現力の低いモデルを利用しているため
  意味のあるパターンを拾いきれていない｡

バリアンス（Variance）

学習データに過剰適合することによって生じる誤差｡

例えば、3次関数に従ったデータを7次関数で多項式回帰した時（過学習）

表現力が高すぎるモデルを利用しているために、
学習データにしかないパターンを拾ってしまう｡
- 重み（パラメタ）の値が極端になっている
- サンプル数に対して説明変数が多過ぎる。

ノイズ（Noise）
- データに混入している本質的でない情報｡
- 本質とノイズの情報は混ざっており区別できない｡
- 機械学習の手法では取り除くことができない｡

↑

実行手順 †

↑

データ作成 †

良いデータの準備が性能発揮の生命線となる。

探索的データ解析（EDA）
データの特徴を探求し、構造を理解する。

前処理
前処理の良し悪しも性能を大きく左右する。

データセットを
- 検査（補完や除去）
- 拡大、次元削減、正規化、規格化（特徴量エンジニアリング）

非構造化データは数値化される（通常はスカラではなくベクトル、テンソル）。
テキストデータのベクトル化には色々な手法があり永遠のテーマとなっている。

データの分割
- 訓練データ：６
- 検証データ：２
- テストデータ：２

↑

学習の実行 †

機械学習システムの選択

訓練を繰り返しパラメタを更新＆収束

得られたモデルを検証データで評価
- 過学習のチェック
- モデルに手を加える
- チューニング、アンサンブル学習

最終評価を行い採用 / 不採用

↑

利用と追加学習 †

↑

学習方法 †

↑

アノテーション †

優れたアルゴリズムを用いても誤った教師データで学習すると
正しく学習できず精度の高い学習モデルが作れない。

アノテーションとは、学習のため教師データを作成する（タグを付与する）こと。

データに付与するタグを標準化、均一化しないと誤った推論結果となる。

労働集約的
- 外注（アウトソーシング）するかしないか？
- ただし、クォリティ・アシュアランスには要注意

アノテーションの質を高める方法

コストが掛かっても正しくアノテーション
- プロによるアノテーション
- 高精度なアノテーション
- 多数決による品質の管理方法
  ・実際は能力に差があるという前提で、アノテーターの能力を考慮。
  ・複数のアノテーターが同じ能力を持っていると仮定した場合、
  　良い品質を得るために沢山の人が必要となる（コスト）。

異なる種類のデータ形式よるタグ付け
- 画像データを用いる
- テキストデータを用いる
- 構造化データを用いる

データの意味は普遍的ではなく目的によって変わる。
→ ターゲット層に適したバイアス（推し）をかけたアノテーション

↑

アクティブ・ラーニング †

本番運用しながら自然に追加学習できる仕組み

AIのアウトプットを全て人間がチェックし、間違っていたものを修正して追加学習データとして利用
AIのアウトプットの信頼度(Confident)の値が低いデータのみを人間がチェックして追加学習。

↑

アンサンブル学習 †

モデルの汎化性能を向上させるため個々に学習した複数のモデルを融合させる方法
理論立ては"まだ"だが、経験的に過学習を防ぎ、汎化性能を向上させることが知られている｡

バギング

複数のモデルを学習し
平均（回帰の場合）または多数決（分類の場合）することによって
過学習の傾向が打ち消しあって最終的に丁度、良い決定境界をつくる。
モデルは並列に作成する。

ブートストラップ（サンプリング）
データ全体の中から重複を許してtrainデータを選ぶ手法｡
ブートストラップによってtrainデータをつくる｡
モデルは順次、作成する。

ブースティング
- 一つのモデルの間違いをうまく訂正するようなモデルを次々につくる｡
- 大元のモデルを最適化するための補助的なモデルを逐次的に学習させる｡

↑

モデルの統合・分割 †

色々なデータを使う場合、色々なモデルが必要になる。

統合
一つの機械学習のモデルに
色々なデータを入れて予測値を出す。

分割
人間が非常に理解し易くなる。

↑

活用例 †

↑

データマイニング（DM）- CRISP-DM †

↑

エキスパート・システム †

専門分野の知識を取り込み、分野の専門家のように振る舞うプログラム

歴史
DENDRAL → Mycin → Cycプロジェクト

エドワード・ファイゲンバウム、DENDRAL、1960年代
未知の有機化合物を特定する
スタンフォード大学、マイシン（Mycin）1970年代
血液中のバクテリアの診断支援
ダグラス・レナート、Cycプロジェクト 1984年～
一般常識をコンピュータに取り込む。30年以上経った今も継続している。

知識ベース

専門知識が豊富であればあるほど暗黙的で矛盾があり、知識ベースを保守が困難に。

一般常識については、そもそも暗黙的で（明文化されていない）ことが明らかに。

知識（概念体系）を扱うための方法論（意味ネットワークやオントロジー）の研究が活性化
- 意味ネットワーク（semantic network）：
  関係を定義可能なUMLクラス図の様な
  ・is-a：推移率が成立する。
  ・part-of：推移率が成立するとは限らない、最低５つのpart-ofがある。
- オントロジー（ontology）：概念化の明示的な仕様
  上記と同様の概念体系を言語状に記述可能なフォーマット
  ・ヘビーウェイト・オントロジー：共有のため哲学的な考察が必要で個別に定義しない
  ・ライトウェイト・オントロジー：正当性について深い考察は行わない（ウェブマイニング等で活用）

エキスパート・システムの例

IBMのWatson（ワトソン）：
- 2011年：テレビ・クイズ番組「Jeopardy!」で2人のチャンピオンと対戦し勝利した。
- Wikipediaから生成されたライトウェイト・オントロジーを用いて、
  質問に含まれるキーワードから関連しそうな回答を高速に検索する。
- 機械学習（machine learning）、深層学習（deep learning）を使用して再登場。

東ロボくん：
東大入試合格を目指すビッグデータと深層学習を利用した統計的学習の人工知能
私大合格は可能だが東大合格に必要となる読解力が致命的になく、未達。

↑

不正会計の検知 †

Li et al

概要
- 24個の会計情報を使ったロジスティック回帰モデル
- サポートベクターマシンで不正会計確率を推定
- 一度スコアを求めるかどうかというのが違いになる。

特徴
1. 手を加えていない会計情報そのものと
  不正・非不正の情報で構成される大量データを
  訓練データとテストデータに分け訓練データでモデルを作り
  テストデータでその検知能力を調べるという一般的な研究
  ・訓練データ：1991年から2002年までのデータ
  ・テストデータ：2003年から2005年までのデータ
2. アンダーサンプリングを行っている。
  訓練データの1と0（不正と非不正）が同数になるようにサンプリング

実務家の方法を取り入れることで
先行研究よりも正判別確率の高いモデルを構築
（東海林・中村・尾崎（2020）
- 不正会計を不正手段の種類別に認識
- 貸借対照表に不正会計の歪みが蓄積されることを利用して
  その歪みから得られる違和感により不正会計を経験的に認知

正判別率の上げかた。
- 歪みと違和感を変数化して特徴量にした。
- 不正手段を売上過大計上に限定した。
- 目的変数を不正群・非不正群ではなく
  非不正群から利益調整群を除いた1,0データとした。

↑

ベイズ云々の活用例 †

迷惑メール
診断・コールセンター
レコメンド
社会現象・データ
顧客行動理解

↑

分類 †

↑

学習データでの分類 †

コンピュータとその周辺の技術・情報が発達してきたため出てきた概念
互いに独立なものではなく、高度に組合せて使用することも可能。

↑

教師あり学習 †

（supervised learning）

教科書を使った勉強のように、
「結果と予測すべき答え」（訓練データ）が与えられ、
それ（≒教師）に至るためのモデルを構築する学習手法

「予測すべき答」は
- ラベル（タグ）とも呼ばれる
- 人間の専門家が訓練例にラベル付け（タグ付け）して提供
- このラベル付け（タグ付け）の作業をアノテーションとも呼ぶ。

未知のデータ「x」にそれを適用して、予言 y = f(x) を与えることができる。

予言 y と、出力 ȳ の誤差が小さくなるように学習が進められる。

異常・不正の検出など、正例が少ないケースでは適合しない（若しくは工夫が必要

↑

教師なし学習 †

（unsupervised learning）

データ自体に構造・特徴があり、そのデータを分類・識別する。

与えられたデータセット（訓練データ）の中に予測すべき正解が与えられないまま、
データの背後に存在する本質的な構造かをデータ同士の関係から導き出すという学習

評価規範Cが与えられている。評価規範Cを最適化するように学習が進められる。

自分自身を教師データにする自己教師型を教師なし学習に分類することもある。

判断ではなく、データマイニングなどグルーピングを行う、
クラスタ分析、主成分分析、対応分析などは教師なし学習

教師あり学習と比べると、
- 結果の解釈が難しく、分析者の主観的な解釈が必要となる。
- 異常・不正の検出など、正例が少ないケースにも適合する。

↑

半教師あり学習 †

（semi-supervised learning）

教師あり学習と教師なし学習を組み合わせて学習する方法
- 教師なし学習で特徴表現を獲得した後で、教師ありでそのモデルを再学習する方法
- 教師ありデータを使ってモデルを作り、それを使って教師なしデータに対する推論の結果を取得
  精度の高いデータを正解ラベルとして採用し、教師ありデータとして使ってモデルを再学習する。
  - ラベルありの例とラベルなしの例を両方扱える。
  - すべてのデータにラベルを付けなくても良いので、効果的な学習が可能。

↑

自己教師あり学習 †

（self-supervised Learning）

ラベル無しデータを使う教師なし学習の一種
「常識」を獲得するための重要な手法
データ自身に隠されている構造を読み取り、
次にくるものを予測する学習を行う。

↑

利用方法での分類 †

≒モデルの種類。
利用：recall、想起、適用
教師データに対するテストデータに適用
「知りたい情報」の設定に依存して多様。
深層学習では、ほとんどのことができる。

↑

推定 †

ある事実を手掛かりにして、推し量って決めること。

プリミティブ？
- 分類
  離散値の予測（特徴を推定する）問題。

回帰
連続する変数の予測（間の相関関係を推定する）問題。

ベイズ云々
- ベイジアンフィルタ
- ベイズモデル
- ベイジアンネットワーク
  - 統計的機械学習手法の一つ
  - 説明可能性が高い機械学習手法
  - ベイジアンネットワークを自動的に構成
    ・グラフ構造の探索
    ・条件付き確率表の推定

↑

分類 †

分類
- 離散的な応答を予測
- 教師あり学習を用いる
- 深層学習を使った分類もある。

種類

ロジスティック回帰

複数の決定木を使用するモデル
アンサンブル学習で、複数の決定木を使用する。

k最近傍法（KNN）
・教師あり学習の中でもシンプルなアルゴリズムの一つ。
・クラスタ数が既知の大規模データセットの高速クラスタリングにおいて有効。
・「近くにあるデータは似ているはずだ」という発想に基づいて、
　ある未知のデータをデータセットの指定の数のクラスに多数決で分類。
　・K近傍法のKは近くにあるデータをK個集めるという意味
　・この多数決により分類を決定するので、教師ありだが学習はしない。

判別分析
特徴量のデータの特性から、特定の対象とそうでない対象をグループ分けする。

ベイジアンフィルタ

サポートベクターマシン (SVM)
・二項分類や回帰に使用できる認識性能が優れたパターン認識モデルの一つ。
・未学習データに対して高い識別性能を得るための工夫がある。
・パーセプトロンやロジスティック回帰よりも高い識別性能を実現し、
・Deep Learningほど、データ量や計算量を必要としない利点がある。
・｢分離マージン最大化｣というコンセプトに基いて超平面で分類を実行。
・カーネル関数による写像によって線形分類できるようにする。
・カーネル・トリックで計算が複雑にならないように式変形する。
・非線形の分離にも対応できるという非常に利点がある｡
・テキストマイニング、災害危険度評価、倒産判別問題、非線形な競馬予測などに利用される。

クラスタリング
- 最も一般的な教師なし学習手法
- 探索的データ分析により、データ内の隠れたパターンやグループ構造を発見する。

種類

k平均法（k-means clustering）
・非階層クラスタリングの代表的な手法の1つ。
・分析担当者はクラスタ数を設定する。
・データセット中から類似データを指定の数のクラスタを作る

ウォード法
・階層クラスタリングの代表的な手法の1つ。
・トーナメント表を作るような手順で、
　① データ数＝クラスタ数で開始し、距離の近い２つを統合して行き、
　② 全てのデータが１つのクラスタに統合された時点で終了する。
・クラスタ間の階層関係をツリー構造で表す。
・出来上がった樹形図をデンドログラムと呼ぶ。
・クラスタ数が事前には分からない場合において有効

トピックモデル
・名前の由来は、モデルが、文書データを対象とした際、各文書は
　「複数の潜在的なトピックから確率的に生成される」と仮定したいるため。
・複数のクラスタにデータを分類するのが大きな特徴。
・代表的な手法に潜在的ディリクレ配分法がある。
・単語から分類の確率、類似度が求められる。
・レコメンドシステムに用いることもできる。

混合ガウスモデル (GMM)
・多くの場合に使用される。
・k平均法を活用したクラスタリングなどよりも、より適切な場合がある。
・以下のケースにおいて有効。
　・データポイントが2つ以上のクラスタに属している可能性がある場合や、
　・クラスタのサイズがさまざまで、クラスターの相関構造が異なっている場合
・ガウス分布（正規分布）を線形重ね合わせによって、
　どうデータポイントが分布しているかパラメタを推定する。
・クラスタリングだけでなく、データセットの確率密度分布を得ることができる。

隠れマルコフモデル (HMM)
・確率モデルの１つであり、
・観測されない（隠れた）状態をもつマルコフ過程を指す。
・観測された記号系列の背後に存在する状態の遷移系列を推測する

自己組織化マップ
・ニューラルネットワークに基づくクラスタリングの手法
・入力データの類似度をマップ上での距離で表現し、自動的に分類
・人が識別することが難しいような、高次元データをクラスタリング可能。

ファジィ c 平均クラスタリング
・データセットをN個のクラスタにグループ化するデータクラスタリング手法
・クラスタ数が既知であり、クラスタに重なりがある場合に有効。
・データセット内のすべてのデータポイントが、すべてのクラスタに属している。
　・クラスタの中心に近いデータは、そのクラスタに属する度合いが高く、
　・クラスタの中心から離れた別のデータ点は、そのクラスタに属する度合いが低い。
・クラスタの中心をランダムに推測、各データポイントのメンバーシップ等級の割り当てを反復。
・データポイントからクラスタ中心までの距離をメンバーシップで重み付けした目的関数を最小化。

↑

回帰 †

連続的な応答を予測
教師あり学習を用いる
深層学習を使った回帰もある。

種類
- 線形回帰
  - 連続する目的変数を複数の説明変数を用いて予測、説明する
  - 1つ以上の独立した説明変数を使用し、線形方程式の係数を推定

非線形回帰
- 線形パラメタとの関係を適切にモデル化できない場合
- 連続する目的変数と1つ以上の説明変数との間の
  非線形な関係を表す方程式を用いて予測、説明する。
- パラメトリック非線形回帰
  目的変数（１変量または多変量）を
  非線形パラメタと1つ以上の説明変数の
  組み合わせとして関数化して予測、説明する。
- ノンパラメトリック非線形回帰
  機械学習の手法が使用される。

正則化を施した線形回帰
- Ridge回帰
- Lasso回帰
- Elastic Net回帰

ステップワイズ回帰
- 精度の高いモデルを選択する回帰分析の手法
- 自動的に説明変数を1つずつ追加、削除

複数の決定木を使用するモデル
（この場合は分類木ではなく回帰木か）

時系列データを対象とする回帰モデル
- 自己回帰（AR）モデル：単変量の時系列データを対象とする回帰モデル
- ベクトル自己回帰（VAR）モデル：ARモデルを多変量に拡張したモデル

↑

認識 †

パターン認識など。

物事をはっきりと見分け、判断すること。
主体あるいは主観が対象を明確に把握すること。

↑

創出 †

GANとかの生成モデル？
物事を新しく造り出すこと。

↑

自己組織化 †

物質や個体が、系全体を俯瞰する能力を持たないのに関わらず、
個々の自律的な振る舞いの結果として、秩序を持つ大きな構造を作り出す現象
行動規範型ロボット的な自己修復機能をもった自己組織化ロボットなどへの応用

↑

その他 †

トランスダクション（トランスダクティブ推論）
観測された具体的な（訓練）例から
具体的かつ固定の（テスト）例の
新たな出力を予測しようとする。

マルチタスク学習
関連する複数の問題について同時に学習させ、
主要な問題の予測精度を向上させる。

↑

統計と機械学習 †

↑

基礎的な違い †

どちらも
- データを使って問題を解決する
- 数学的な手法を使って質問に答えることに関心がある

ゴールと貢献の仕方が違う。

↑

統計学 †

統計学か数学の一環
データを“説明”すること（推定と推論）を強調
限られた標本から調査したい母集団全体の特徴を推測する。
説明変数の数が大きくなると多変量解析を使った
変数選択手法では多重検定のリスクが大きくなる。

↑

機械学習 †

コンピュータ・サイエンスの一環
データから“予測”することを強調
変数間の関係性やルールなどを
機械学習による予測モデルに学習させ予測する。
説明変数の数が多くなる場合は、
機械学習を含む解析が使える。

↑

使い分け †

予測モデルの使い分け。

↑

統計 †

モデル全体を解釈したい。
データのサンプルサイズが大きくない。
トレーニングデータを持っていない。

不確実性やランダム性がある。
信号対ノイズ比（ノイズに対するシグナルの割合）が大きくない。

不確実性や予測変数の影響度を調べる必要がある。
少ない数の変数の影響度を切り離して評価したい。

↑

機械学習 †

モデルがブラックボックスで興味が無い場合。
- 複雑な構造の内部パラメタに大量のデータの情報を反映できる。
- 十分なデータを使用できれば、精度な予測・分析ができる可能性が高い。
- トレードオフとしてモデル構造が複雑で解釈性が犠牲になりがち。

大量のデータを使用して学習することが期待されている。
- データのサンプルサイズが大きい。
- 膨大なトレーニングデータで学習できる。

強い不確実性やランダム性を持たない。
信号対ノイズ比（ノイズに対するシグナルの割合）が大きい。

不確実性の推測や選択した予測変数の影響度には興味が無い。
予測がゴールで、少ない数の変数の影響は問題ではない。

↑

特徴量エンジニアリング †

↑

考え方 †

今あるデータの特徴量からドメイン知識などを生かして

特徴量を絞ったり
新しくデータの特徴量を作成したり

することで、予測性能、すなわち汎化性能を向上させる作業。

↑

CRISP-DM上の †

データの理解
- データの品質の検証（欠損値

データの準備
- データのクリーニング（欠損値
- データ統合（フォーマット変換

↑

テクニック †

↑

欠損値の処理 †

記録されなかった値を含むデータの削除や補完

Pythonのライブラリで処理可能。
- 欠損率の計算と確認
- データのクリーニング（削除や補完）

↑

特徴量選択 †

統計量を用いた特徴量選択

ピアソンの積率相関係数を用いた手法
相関係数（2つの量的変数間の直線的関連の程度を表す係数）

スピアマンの順位相関係数を用いた手法
各変量を順位に変換してピアソンの積率相関係数を求めたもの

反復特徴量選択法
説明変数を増やしたり減らしたりを繰り返して予測精度を推し量りながら特徴量を選択する手法

変数増加法（前方選択法）
求められた特徴量重要度の高いものから一つずつ特徴量をデータセットから追加し、予測精度を測る手法

変数減少法（後方削除法）
求められた特徴量重要度の低いものから一つずつ特徴量をデータセットから取り除き、予測精度を測る手法

手法ベース特徴量選択法
正解ラベルと各特徴量の関係から、特徴量重要度を求める方法

決定木ベース

ランダムフォレスト、勾配ブースティング）を用いた例
各特徴量を外した時に、予測精度（正解率）が
どれくらい悪化するかを求め、その差で重要度を推定する方法

勾配ブースティング（XGBoost、LightGBM）を用いた例
・「モデルの学習の際、その特徴量が使用された回数」で推定する方法（split）
・「その特徴量が使用される分岐から、損失関数を小さくなったか
　（目的関数がどれだけ改善されたか）の幅」で推定する方法（gain）

回帰系（Ridge回帰、Lasso回帰、ロジスティック回帰）の例
回帰係数（重み）から重要度を算出

↑

エンコーディング †

One-Hotエンコーディング（ダミー・コーディング、Effectコーディング

多クラスのカテゴリーを0・1ラベルで表す特徴量として展開

ダミー・コーディングでは最初の列を削除
- オール０ → 参照カテゴリ
- 多重共線性を回避

Effectコーディングでは最初の列を削除
- オール０ → 欠損データ
- オール -1 → 参照カテゴリ
- 多重共線性を回避、欠損データ対応

Pythonのライブラリで処理可能。

Featureハッシング
- One-Hotエンコーディングは高次になることで不安定になる。
- 説明変数をハッシュ値のビットフラグ的に表現し削減する。
- 衝突が起きる、直感的に理解できなくなる、などの問題がある。

Frequencyエンコーディング
- 各カテゴリ変数値の出現確率でエンコーディング
- Ranked frequencyエンコーディングは出現順位でエンコーディング
- 次元を増さずにエンコーディングでき線形・非線形どちらでも有効
- 外れ値に敏感だがRanked frequencyでは外れ値の影響も小さくなる。

Targetエンコーディング
- 各カテゴリ変数値の目的変数の情報（平均値）を使ってエンコーディングする方法
- リークを起こす可能性（訓練データで高い評価、テスト・データで低い評価）

ラベル・エンコーディング（Ordinalエンコーディング
- カテゴリに任意の（連番の）数値を割り当てる。
- 数値間の差が一定なのでカテゴリ間の差が一定でないものに対して有効でない。
- ラベル間の数値の大小関係を学んでしまうアルゴリズムでは使えない。

その他
- ビンカウンティング
- Nonエンコーディング

↑

特徴量作成 †

特徴量生成のパターン（数値変換）

単一変数

二値化
境目（閾値）を設け、"0"と"1"に分ける

離散化
ある連続した値を不連続な（階級）値に分割する

分位化
階級ごとの件数に大きな差がある場合、
データの分布に応じて階級を決める

べき乗
指数が実数全体となる計算

スケール変換
- 特徴量がおおよそ同じスケール(寸法、尺度)になるように変換する手法
- StandardScaler?、Normalizer、MinMaxScaler?等の手法がある。
  ・StandardScaler?：特徴量の平均が0、分散が1、になるようにスケール変換
  ・Normalizer：ノルムが1になるようにスケール変換（デフォルトでは、L2正規化）
  ・MinMaxScaler?：特徴量の値が一定の範囲（0～1 or -1～1）に収まるようにスケール変換