機械学習（machine learning） - .NET 開発基盤部会 Wiki

コストが掛かっても正しくアノテーション
- プロによるアノテーション
- 高精度なアノテーション
- 多数決による品質の管理方法
  ・実際は能力に差があるという前提で、アノテーターの能力を考慮。
  ・複数のアノテーターが同じ能力を持っていると仮定した場合、
  　良い品質を得るために沢山の人が必要となる（コスト）。

異なる種類のデータ形式よるタグ付け
- 画像データを用いる
- テキストデータを用いる
- 構造化データを用いる

データの意味は普遍的ではなく目的によって変わる。
→ ターゲット層に適したバイアス（推し）をかけたアノテーション

↑

アクティブ・ラーニング †

本番運用しながら自然に追加学習できる仕組み

AIのアウトプットを全て人間がチェックし、間違っていたものを修正して追加学習データとして利用
AIのアウトプットの信頼度(Confident)の値が低いデータのみを人間がチェックして追加学習。

↑

アンサンブル学習 †

モデルの汎化性能を向上させるため個々に学習した複数のモデルを融合させる方法
「複数のモデルによる各予測結果」をアンサンブル（≒組合せ）して「最終的な予測結果」を得る。
理論立ては"まだ"だが、経験的に過学習を防ぎ、汎化性能を向上させることが知られている｡

バギング
複数の弱学習器を並列作成し予測を組み合わせ、各予測を平均や多数決で最終予測結果を得る。

複数のモデルを学習し
平均（回帰の場合）または多数決（分類の場合）することによって
過学習の傾向が打ち消しあって最終的に丁度、良い決定境界をつくる。

ブートストラップ（サンプリング）
データ全体の中から重複を許してtrainデータを選ぶ手法｡
ブートストラップによってtrainデータをつくる｡

ブースティング
弱学習器を連続的に学習（≒何度も訂正）、順次作成し、精度を向上させる手法。

学習器の精度を向上するために誤分類データに注意を払って次の学習を行う。
一つのモデルの間違いをうまく訂正するようなモデルを次々につくる｡
大元のモデルを最適化するための補助的なモデルを逐次的に学習させる｡
バギングより高い精度が見込めるが、学習に時間がかかる。

スタッキング（ブレンディング

ブレンディング
・バギングは平均 / 投票でアンサンブル
・ブレンディングは統計 / 機械学習モデル（一般的には線形モデル）でアンサンブル

スタッキング
３層以上のレベル数でブレンディング
・いくつかのFold（グループ）にデータを分けて、それぞれを各モデルで予測
・それぞれの予測値を新たな特徴量とする。
・何回か繰り返して最終アウトプット算出。

決定木分析におけるアンサンブル学習

↑

モデルの統合・分割 †

色々なデータを使う場合、色々なモデルが必要になる。

統合
一つの機械学習のモデルに
色々なデータを入れて予測値を出す。

分割
人間が非常に理解し易くなる。

↑

活用例 †

↑

データマイニング †

↑

エキスパート・システム †

専門分野の知識を取り込み、分野の専門家のように振る舞うプログラム

歴史
DENDRAL → Mycin → Cycプロジェクト

エドワード・ファイゲンバウム、DENDRAL、1960年代
未知の有機化合物を特定する
スタンフォード大学、マイシン（Mycin）1970年代
血液中のバクテリアの診断支援
ダグラス・レナート、Cycプロジェクト 1984年～
一般常識をコンピュータに取り込む。30年以上経った今も継続している。

知識ベース

専門知識が豊富であればあるほど暗黙的で矛盾があり、知識ベースを保守が困難に。

一般常識については、そもそも暗黙的で（明文化されていない）ことが明らかに。

知識（概念体系）を扱うための方法論（意味ネットワークやオントロジー）の研究が活性化

意味ネットワーク（semantic network）：
関係を定義可能なUMLクラス図の様な
・is-a：推移率が成立する（継承とも）。
・part-of：推移率が成立するとは限らない、最低５つのpart-ofがある（属性とも）。
オントロジー（ontology）：概念化の明示的な仕様
上記と同様の概念体系を言語状に記述可能なフォーマット
・ヘビーウェイト・オントロジー：共有のため哲学的な考察が必要で個別に定義しない
・ライトウェイト・オントロジー：正当性について深い考察は行わない（ウェブマイニング等で活用）

エキスパート・システムの例

IBMのWatson（ワトソン）：
- 2011年：テレビ・クイズ番組「Jeopardy!」で2人のチャンピオンと対戦し勝利した。
- Wikipediaから生成されたライトウェイト・オントロジーを用いて、
  質問に含まれるキーワードから関連しそうな回答を高速に検索する。

東ロボくん：
- 東大入試合格を目指すビッグデータと深層学習を利用した統計的学習の人工知能
- 私大合格は可能だが東大合格に必要となる読解力が致命的になく、未達。

↑

不正会計の検知 †

Li et al

概要
- 24個の会計情報を使ったロジスティック回帰モデル
- サポートベクターマシンで不正会計確率を推定
- 一度スコアを求めるかどうかというのが違いになる。

特徴
1. 手を加えていない会計情報そのものと
  不正・非不正の情報で構成される大量データを
  訓練データとテストデータに分け訓練データでモデルを作り
  テストデータでその検知能力を調べるという一般的な研究
  ・訓練データ：1991年から2002年までのデータ
  ・テストデータ：2003年から2005年までのデータ
2. アンダーサンプリングを行っている。
  訓練データの1と0（不正と非不正）が同数になるようにサンプリング

実務家の方法を取り入れることで
先行研究よりも正判別確率の高いモデルを構築
（東海林・中村・尾崎（2020）
- 不正会計を不正手段の種類別に認識
- 貸借対照表に不正会計の歪みが蓄積されることを利用して
  その歪みから得られる違和感により不正会計を経験的に認知

正判別率の上げかた。
- 歪みと違和感を変数化して特徴量にした。
- 不正手段を売上過大計上に限定した。
- 目的変数を不正群・非不正群ではなく
  非不正群から利益調整群を除いた1,0データとした。

↑

ベイズ云々の活用例 †

迷惑メール
診断・コールセンター
レコメンド
社会現象・データ
顧客行動理解

↑

機械学習の分類 †

分類１	分類２	用途	アルゴリズム
教師あり学習	回帰	・売上予測・人口予測・需要予測	・線形回帰・非線形回帰・ニューラルネットワーク回帰
教師あり学習	分類	・画像分類・故障診断・顧客維持	・ロジスティック回帰・サポートベクターマシン・ランダムフォレスト
教師なし学習	クラスタリング	・レコメンド・顧客セグメンテーション・ターゲットマーケッティング	・k-means
教師なし学習	次元削減	・特徴量エンジニアリング	・主成分分析
強化学習		・ゲーム・広告・自動運転・リアルタイム判断	・Q学習・モンテカルロ法

↑

学習データでの分類 †

コンピュータとその周辺の技術・情報が発達してきたため出てきた概念
互いに独立なものではなく、高度に組合せて使用することも可能。

↑

教師あり学習 †

（supervised learning）

小脳の働きを模倣しているらしい。

教科書を使った勉強のように、
「結果と予測すべき答え」（訓練データ）が与えられ、
それ（≒教師）に至るためのモデルを構築する学習手法

「予測すべき答」は
- ラベル（タグ）とも呼ばれる
- 人間の専門家が訓練例にラベル付け（タグ付け）して提供
- このラベル付け（タグ付け）の作業をアノテーションとも呼ぶ。

未知のデータ「x」にそれを適用して、予言 y = f(x) を与えることができる。

予言 y と、出力 ȳ の誤差が小さくなるように学習が進められる。

異常・不正の検出など、正例が少ないケースでは適合しない（若しくは工夫が必要

↑

教師なし学習 †

（unsupervised learning）

大脳皮質の働きを模倣の働きを模倣しているらしい。

データ自体に構造・特徴があり、そのデータを分類・識別する。

与えられたデータセット（訓練データ）の中に予測すべき正解が与えられないまま、
データの背後に存在する本質的な構造かをデータ同士の関係から導き出すという学習

評価規範Cが与えられている。評価規範Cを最適化するように学習が進められる。

自分自身を教師データにする自己教師型を教師なし学習に分類することもある。

判断ではなく、データマイニングなどグルーピングを行う、
クラスタ分析、主成分分析、対応分析などは教師なし学習

教師あり学習と比べると、
- 結果の解釈が難しく、分析者の主観的な解釈が必要となる。
- 異常・不正の検出など、正例が少ないケースにも適合する。

↑

半教師あり学習 †

（semi-supervised learning）

一部のデータにのみ出力の正解が付与されたデータを用いる手法｡
- ラベルありの例とラベルなしの例を両方扱える。
- すべてのデータにラベルを付けなくても良いので、効果的な学習が可能。

教師あり学習と教師なし学習を組み合わせて学習する
- 主成分分析などの教師なし学習によって事前学習を行い、教師あり学習の精度向上を図る｡
- 教師ありデータを使ってモデルを作り、それを使って教師なしデータに対する推論の結果を取得
  精度の高いデータを正解ラベルとして採用し、教師ありデータとして使ってモデルを再学習する。

分類問題（識別モデルと生成モデル）で使われる。
（回帰分析の半教師あり学習で同じようなメリットを得るのは難しい）
- 説明変数の事前分布が明確になる
- クラス間の境界が明確になる (クラス分類のみ)
- モデルの安定性が向上する
- モデルの適用範囲が広がる

↑

自己教師あり学習 †

（self-supervised Learning）

ラベル無しデータを使う教師なし学習の一種
「常識」を獲得するための重要な手法
データ自身に隠されている構造を読み取り、ターゲットを予測する学習を行う。
- 次単語（予測）
- マスク単語（予測）

self-xxxxxxx Learningと言うアルゴリズムはコレの場合が多い。

↑

利用方法での分類 †

≒モデルの種類。
利用：recall、想起、適用
教師データに対するテストデータに適用
「知りたい情報」の設定に依存して多様。
深層学習では、ほとんどのことができる。

↑

推定 †

ある事実を手掛かりにして、推し量って決めること。

プリミティブ？
- 分類
  離散値の予測（特徴を推定する）問題。

回帰
連続する変数の予測（間の相関関係を推定する）問題。

ベイズ云々
- ベイジアンフィルタ
- ベイズモデル
- ベイジアンネットワーク
  - 統計的機械学習手法の一つ
  - 説明可能性が高い機械学習手法
  - ベイジアンネットワークを自動的に構成
    ・グラフ構造の探索
    ・条件付き確率表の推定

↑

分類 †

分類
- 離散的な応答を予測
- 教師あり学習を用いる
- 深層学習を使った分類もある（物体識別）。

種類

ロジスティック回帰

サポートベクターマシン（SVM）

複数の決定木を使用するモデル
アンサンブル学習で、複数の決定木を使用する。

判別分析
特徴量のデータの特性から、特定の対象とそうでない対象をグループ分けする。

k近傍法（k-NN）
・教師あり学習の中でもシンプルなアルゴリズムの一つ。
・似た名称のk平均法と同様に、ユークリッド距離を使う。
・「近くにあるデータは似ているはずだ」という発想に基づいて、
　ある未知のデータをデータセットの指定の数のクラスに多数決で分類。
　・K近傍法のKは近くにあるデータをK個集めるという意味
　・この多数決により分類を決定するので、教師ありだが学習はしない。

ベイジアンフィルタ

クラスタリング
- 最も一般的な教師なし学習手法
- 探索的データ分析により、データ内の隠れたパターンやグループ構造を発見する。

種類

k平均法（k-means clustering）
・非階層クラスタリングの代表的な手法の1つ。
・分析担当者はクラスタ数を設定する。
・似た名称のk近傍法と同様に、ユークリッド距離を使う。
・データセット中から類似データを指定の数のクラスタを作る

ウォード法
・階層クラスタリングの代表的な手法の1つ。
・トーナメント表を作るような手順で、
　① データ数＝クラスタ数で開始し、距離の近い２つを統合して行き、
　② 全てのデータが１つのクラスタに統合された時点で終了する。
・クラスタ間の階層関係をツリー構造で表す。
・出来上がった樹形図をデンドログラムと呼ぶ。
・クラスタ数が事前には分からない場合において有効

トピックモデル
・名前の由来は、モデルが、文書データを対象とした際、各文書は
　「複数の潜在的なトピックから確率的に生成される」と仮定したいるため。
・複数のクラスタにデータを分類するのが大きな特徴。
・代表的な手法に潜在的ディリクレ配分法がある。
・単語から分類の確率、類似度が求められる。
・レコメンドシステムに用いることもできる。

混合ガウスモデル (GMM)
・多くの場合に使用される。
・k平均法を活用したクラスタリングなどよりも、より適切な場合がある。
・以下のケースにおいて有効。
　・データポイントが2つ以上のクラスタに属している可能性がある場合や、
　・クラスタのサイズがさまざまで、クラスターの相関構造が異なっている場合
・ガウス分布（正規分布）を線形重ね合わせによって、
　どうデータポイントが分布しているかパラメタを推定する。
・クラスタリングだけでなく、データセットの確率密度分布を得ることができる。

隠れマルコフモデル (HMM)
・確率モデルの１つであり、
・観測されない（隠れた）状態をもつマルコフ過程を指す。
・観測された記号系列の背後に存在する状態の遷移系列を推測する

自己組織化マップ
・ニューラルネットワークに基づくクラスタリングの手法
・入力データの類似度をマップ上での距離で表現し、自動的に分類
・人が識別することが難しいような、高次元データをクラスタリング可能。

ファジィ c 平均クラスタリング
・データセットをN個のクラスタにグループ化するデータクラスタリング手法
・クラスタ数が既知であり、クラスタに重なりがある場合に有効。
・データセット内のすべてのデータポイントが、すべてのクラスタに属している。
　・クラスタの中心に近いデータは、そのクラスタに属する度合いが高く、
　・クラスタの中心から離れた別のデータ点は、そのクラスタに属する度合いが低い。
・クラスタの中心をランダムに推測、各データポイントのメンバーシップ等級の割り当てを反復。
・データポイントからクラスタ中心までの距離をメンバーシップで重み付けした目的関数を最小化。

↑

回帰 †

連続的な応答を予測
教師あり学習を用いる
深層学習を使った回帰もある。

種類
- 線形回帰
  直線で予測。
  - 連続する目的変数を複数の説明変数を用いて予測、説明する
  - 1つ以上の独立した説明変数を使用し、線形方程式の係数を推定

非線形回帰
曲線で予測。
- 線形パラメタとの関係を適切にモデル化できない場合
- 連続する目的変数と1つ以上の説明変数との間の
  非線形な関係を表す方程式を用いて予測、説明する。
- パラメトリック非線形回帰
  目的変数（単変量または多変量）を
  非線形パラメタと1つ以上の説明変数の
  組み合わせとして関数化して予測、説明する。
- ノンパラメトリック非線形回帰
  機械学習の手法が使用される。

正則化を施した線形回帰
- Ridge回帰
- Lasso回帰
- Elastic Net回帰

ステップワイズ回帰
- 精度の高いモデルを選択する回帰分析の手法
- 自動的に説明変数を1つずつ追加、削除

複数の決定木を使用するモデル
（この場合は分類木ではなく回帰木か）

時系列データを対象とする回帰モデル
- 自己回帰（AR）モデル：単変量の時系列データを対象とする回帰モデル
- ベクトル自己回帰（VAR）モデル：ARモデルを多変量に拡張したモデル

↑

認識 †

パターン認識など。

物事をはっきりと見分け、判断すること。
主体あるいは主観が対象を明確に把握すること。

Googleの猫：self-taught learning（自己教示学習）
≠ self-supervised Learning（自己教師あり学習）

↑

創出 †

GANとかの生成モデル？
物事を新しく造り出すこと。

↑

自己組織化 †

物質や個体が、系全体を俯瞰する能力を持たないのに関わらず、
個々の自律的な振る舞いの結果として、秩序を持つ大きな構造を作り出す現象
行動規範型ロボット的な自己修復機能をもった自己組織化ロボットなどへの応用

↑

その他 †

↑

深層学習 †

↑

強化学習 †

↑

深層強化学習 †

↑

その他 †

トランスダクション（トランスダクティブ推論）
観測された具体的な（訓練）例から
具体的かつ固定の（テスト）例の
新たな出力を予測しようとする。

マルチタスク学習
関連する複数の問題について同時に学習させ、
主要な問題の予測精度を向上させる。

↑

統計と機械学習 †

↑

基礎的な違い †

どちらも
- データを使って問題を解決する
- 数学的な手法を使って質問に答えることに関心がある

ゴールと貢献の仕方が違う。
- 分析において説明力を重視するのか？
- 予測において精度を重視するのか？

SVMやDNNなどの精度が高いが説明しにくいモデルの使用を避け
代わりに表現力が乏しいが説明がし易いモデルを使用することがある｡

↑

統計学 †

統計学か数学の一環
データを“説明”すること（推定と推論）を強調
- 限られた標本から調査したい母集団全体の特徴を推測する。
- データを（学習データと検証データに）分割しない。
- 過学習の可能性を気にしない。が、疑似相関は気にする。

説明変数の数が大きくなると多変量解析を使った変数選択手法では多重検定のリスクが大きくなる。

↑

機械学習 †

コンピュータ・サイエンスの一環
データから“予測”することを強調
- 変数間の関係性やルールなどを機械学習による予測モデルに学習させ予測する。
- データを（学習データと検証データに）分割する。
- 過学習の可能性を気にする。が、疑似相関は気にしない。

説明変数の数が多くなる場合は、機械学習を含む解析が使える。

↑

使い分け †

予測モデルの使い分け。

↑

統計 †

モデルとデータ

モデル
- モデルとデータ全体を解釈したい。

データ

量
・データのサンプルサイズが大きくない。
・トレーニングデータを持っていない。

質
・不確実性やランダム性がある。
・信号対ノイズ比（ノイズに対するシグナルの割合）が大きくない。

目的
- 不確実性や予測変数の影響度を調べる必要がある。
- 少ない数の変数の影響度を切り離して評価したい。

↑

機械学習 †

モデルとデータ

モデル
推論の精度に興味があり、モデルへの興味は薄い。
- 複雑な構造の内部パラメタに大量のデータの情報を反映できる。
- 十分なデータを使用できれば、精度な予測・分析ができる可能性が高い。
- トレードオフとしてモデル構造が複雑で解釈性が犠牲になりがち。

データ

量
大量のデータを使用して学習することが期待されている。
・データのサンプルサイズが大きい。
・膨大なトレーニングデータで学習できる。

質
・強い不確実性やランダム性を持たない。
・信号対ノイズ比（ノイズに対するシグナルの割合）が大きい。

目的
- 不確実性の推測や選択した予測変数の影響度には興味が無い。
- 予測がゴールで少ない数の変数の影響は問題ではない。

↑

特徴量の選択とエンジニアリング †

今あるデータの特徴量からドメイン知識などを生かして

特徴量選択：特徴量を絞ったり
特徴量エンジニアリング：新しくデータの特徴量を作成したり

することで、予測性能、すなわち汎化性能を向上させる作業。

↑

CRISP-DM上の †

↑

データの理解 †

↑

データの準備 †

↑

テクニック †

↑

欠損値の処理 †

記録されなかった値を含むデータの削除や補完

Pythonのライブラリで処理可能。
- 欠損率の計算と確認
- データのクリーニング（削除や補完）

↑

相関係数を確認 †

ピアソンの積率相関係数
相関係数（2つの量的変数間の直線的関連の程度を表す係数）

スピアマンの順位相関係数
各変量を順位に変換してピアソンの積率相関係数を求めたもの

↑

特徴量選択 †

相関係数を用いた特徴量選択
（多重共線性（マルチコ）対策

反復特徴量選択法
説明変数を増やしたり減らしたりを繰り返して予測精度を推し量りながら特徴量を選択する手法

変数増加法（前方選択法）
求められた特徴量重要度の高いものから一つずつ特徴量をデータセットから追加し、予測精度を測る手法

変数減少法（後方削除法）
求められた特徴量重要度の低いものから一つずつ特徴量をデータセットから取り除き、予測精度を測る手法

手法ベース特徴量選択法
正解ラベルと各特徴量の関係から、特徴量重要度を求める方法

決定木ベース

回帰系（Ridge回帰、Lasso回帰、ロジスティック回帰）の例
回帰係数（重み）から重要度を算出

↑

エンコーディング †

One-Hotエンコーディング

多クラスのカテゴリを0・1ラベルで表す特徴量として展開する。

One-Hotエンコーディング結果のデータをOne-Hotベクトルと言う。

Dummyコーディング、Effectコーディングがある。

Dummyコーディングでは最初の列を削除
- オール０ → 参照カテゴリ
- 多重共線性（マルチコ）を回避

Effectコーディングでは最初の列を削除
- オール０ → 欠損データ
- オール -1 → 参照カテゴリ
- 多重共線性（マルチコ）を回避、欠損データ対応

Pythonのライブラリで処理可能。

Featureハッシング
- One-Hotエンコーディングは高次になることで不安定になる。
- 説明変数をハッシュ値のビットフラグ的に表現し削減する。
- 衝突が起きる、直感的に理解できなくなる、などの問題がある。

Frequencyエンコーディング
- 各カテゴリ変数値の出現確率でエンコーディング
- Ranked frequencyエンコーディングは出現順位でエンコーディング
- 次元を増さずにエンコーディングでき線形・非線形どちらでも有効
- 外れ値に敏感だがRanked frequencyでは外れ値の影響も小さくなる。

Targetエンコーディング
- 各カテゴリ変数値の目的変数の情報（平均値）を使ってエンコーディングする方法
- リークを起こす可能性（訓練データで高い評価、テスト・データで低い評価）

ラベル・エンコーディング（Ordinalエンコーディング
- カテゴリに任意の（連番の）数値を割り当てる。
- 数値間の差が一定なのでカテゴリ間の差が一定でないものに対して有効でない。
- ラベル間の数値の大小関係を学んでしまうアルゴリズムでは使えない。

その他
- ビンカウンティング
- Nonエンコーディング

↑

特徴量作成 †

特徴量生成のパターン（数値変換）

単一変数

二値化
境目（閾値）を設け、"0"と"1"に分ける。

離散化
ある連続した値を不連続な（階級）値に分割する。

分位化
階級ごとの件数に大きな差がある場合、
データの分布に応じて階級を決める。

べき乗
指数が実数全体となる計算

スケール変換
- 特徴量がおおよそ同じスケール(寸法、尺度)になるように変換する手法
- StandardScaler?、Normalizer、MinMaxScaler?等の手法がある。
  ・StandardScaler?：特徴量の平均が0、分散が1、になるようにスケール変換
  ・Normalizer：ノルムが1になるようにスケール変換（デフォルトでは、L2正規化）
  ・MinMaxScaler?：特徴量の値が一定の範囲（0～1 or -1～1）に収まるようにスケール変換