.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

機械学習(machine learning)について纏める。

依存して、特定の課題を効率的に実行する

詳細

理論

統計的機械学習

数理最適化

※ DNNを用いた近似(勾配降下法、誤差逆伝播法)

不明な点

用語

特徴量

である。

と期待されている。

パラメタ

重みとも呼ばれるモデルの学習実行後に獲得される値。

ハイパーパラメタ

アルゴリズム

適合

限界

過学習

(過剰適合、過適合、オーバーフィッティング)

予測誤差を生む要因

実行手順

データ作成

良いデータの準備が性能発揮の生命線となる。

学習の実行

利用と追加学習

学習方法

アノテーション

アクティブ・ラーニング

本番運用しながら自然に追加学習できる仕組み

アンサンブル学習

・ランダムフォレスト
 決定木による複数の弱学習器を統合させて汎化能力を向上させる、アンサンブル学習(バギング)
・勾配ブースティング木
 勾配降下法と決定木、アンサンブル学習(ブースティング)が組み合わされた手法

モデルの統合・分割

色々なデータを使う場合、色々なモデルが必要になる。

活用例

データマイニング(DM)- CRISP-DM

エキスパート・システム

不正会計の検知

ベイズ云々の活用例

分類

学習データでの分類

教師あり学習

(supervised learning)

教師なし学習

(unsupervised learning)

半教師あり学習

(semi-supervised learning)

自己教師あり学習

(self-supervised Learning)

利用方法での分類

推定

分類

回帰

認識

創出

自己組織化

その他

強化学習

(reinforcement learning)

深層学習

深層強化学習

その他

統計と機械学習

基礎的な違い

統計学

機械学習

使い分け

予測モデルの使い分け。

統計

機械学習

特徴量エンジニアリング

考え方

今あるデータの特徴量からドメイン知識などを生かして

することで、予測性能、すなわち汎化性能を向上させる作業。

CRISP-DM上の

テクニック

欠損値の処理

特徴量選択

エンコーディング

特徴量作成

特徴量生成のパターン(数値変換)

スタッキング

不均衡データに対するサンプリング

まとめ

MLOps

(Machine Learning Operations)

CX

CI/CD

CT/CM

ポイント

動作環境

管理セキュリティ性能通信環境
クラウド
オンプレ
エッジ

精度・速度

反比例のトレードオフ

サーバ構成

ノウハウが必要(データ・パイプライン

安定運用

※ 本番・運用のチェックの労力で学習データを作成し精度を上げていくサイクルを造るなど。

Auto ML

課題

⽣産性向上が阻害されている主な要因はデータ・ツール・デプロイ

データレイク

課題

以下のような課題を持っている。

プロダクト

ツール

課題

以下のような課題を持っている。

プロダクト

デプロイ

課題

以下のような課題を持っている。

プロダクト

参考

特徴量エンジニアリング

Qiita

データ分析

https://qiita.com/tk-tatsuro/items/561e9fc657422e05f0f7

特徴量エンジニアリング

モデル構築・適用

https://qiita.com/tk-tatsuro/items/ec8c1a36582d4bec7924

Wikipedia

アルゴリズム、モデル

学習データでの分類

活用例


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS