.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

機械学習(machine learning)について纏める。

依存して、特定の課題を効率的に実行する

詳細

理論

統計的機械学習

数理最適化

※ DNNを用いた近似(勾配降下法、誤差逆伝播法)

不明な点

用語

特徴量

である。

と期待されている。

パラメタ

重みとも呼ばれるモデルの学習実行後に獲得される値。

ハイパーパラメタ

アルゴリズム

適合

限界

過学習

(過剰適合、過適合、オーバーフィッティング)

予測誤差を生む要因

未学習

(学習不足、アンダーフィッティング)

実行手順

※ より専門的なプロセスについては、CRISP-DMを参照。

データ作成

良いデータの準備が性能発揮の生命線となる。

学習の実行

利用と追加学習

学習方法

アノテーション

アクティブ・ラーニング

本番運用しながら自然に追加学習できる仕組み

アンサンブル学習

モデルの統合・分割

色々なデータを使う場合、色々なモデルが必要になる。

活用例

データマイニング

エキスパート・システム

不正会計の検知

ベイズ云々の活用例

分類

学習データでの分類

教師あり学習

(supervised learning)

教師なし学習

(unsupervised learning)

半教師あり学習

(semi-supervised learning)

自己教師あり学習

(self-supervised Learning)

利用方法での分類

推定

分類

回帰

認識

創出

自己組織化

その他

強化学習?

深層学習

深層強化学習?

その他

統計と機械学習

基礎的な違い

統計学

機械学習

使い分け

予測モデルの使い分け。

統計

機械学習

特徴量の選択とエンジニアリング

今あるデータの特徴量からドメイン知識などを生かして

することで、予測性能、すなわち汎化性能を向上させる作業。

CRISP-DM上の

データの理解

データの品質の検証(欠損値

データの準備

テクニック

欠損値の処理

特徴量選択

エンコーディング

特徴量作成

特徴量生成のパターン(数値変換)

スタッキング

不均衡データに対するサンプリング

Pythonでの処理例

Pandas

Matplotlib

モデル評価のエンジニアリング

モデルの評価

精度の評価

精度と説明力

MLOps(エンジニアリング部分の自動化

(Machine Learning Operations)

CX

CI/CD

CT/CM

ポイント

動作環境

管理セキュリティ性能通信環境
クラウド
オンプレ
エッジ

精度・速度

反比例のトレードオフ

サーバ構成

ノウハウが必要(データ・パイプライン

安定運用

※ 本番・運用のチェックの労力で学習データを作成し精度を上げていくサイクルを造るなど。

Auto ML

課題(を解決するクラスド・サービス

⽣産性向上が阻害されている主な要因はデータ・ツール・デプロイ

データレイク

課題

以下のような課題を持っている。

プロダクト

ツール

課題

以下のような課題を持っている。

プロダクト

デプロイ

課題

以下のような課題を持っている。

プロダクト

参考

特徴量の選択とエンジニアリング

Qiita

データ分析

https://qiita.com/tk-tatsuro/items/561e9fc657422e05f0f7

特徴量の選択とエンジニアリング

モデル構築・適用

https://qiita.com/tk-tatsuro/items/ec8c1a36582d4bec7924

Wikipedia

アルゴリズム、モデル

学習データでの分類

活用例


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS