「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
機械学習(machine learning)について纏める。
依存して、特定の課題を効率的に実行する
I(x)=-logP(x) ※ 0≦P(x)≦1
P(午後から雨が降る|午前は晴れている)<P(午後から雨が降る|午前も雨が降る)
H(x)=Σ-P(xi)logP(xi)
D(P||Q)=ΣP(x)log(P(x)/Q(x))
以下のような方法で関数(的なモノ)のパラメタの更新(学習)をおこなう。
※ 単回帰・重回帰の近似(最小二乗法)、DNNを用いた近似(勾配降下法、誤差逆伝播法)
(IID仮定)
である。
と期待されている。
重みとも呼ばれるモデルの学習実行後に獲得される値。
学習に使用したデータだけではなく、新たなデータに対する予測性能。
(学習不足、アンダーフィッティング)
(過剰適合、過適合、オーバーフィッティング)
あるデータを使って訓練した機械学習モデルにおいて、
その訓練データ(入力データおよび教師ラベル)の数値の
※ より専門的なプロセスについては、CRISP-DMを参照。
良いデータの準備が性能発揮の生命線となる。
本番運用しながら自然に追加学習できる仕組み
色々なデータを使う場合、色々なモデルが必要になる。
分類1 | 分類2 | 用途 | アルゴリズム |
教師あり学習 | 回帰 | ・売上予測 ・人口予測 ・需要予測 | ・線形回帰 ・非線形回帰 ・ニューラルネットワーク回帰 |
分類 | ・画像分類 ・故障診断 ・顧客維持 | ・ロジスティック回帰 ・サポートベクターマシン ・ランダムフォレスト | |
教師なし学習 | クラスタリング | ・レコメンド ・顧客セグメンテーション ・ターゲットマーケッティング | ・k-means |
次元削減 | ・特徴量エンジニアリング | ・主成分分析 | |
強化学習 | ・ゲーム ・広告 ・自動運転 ・リアルタイム判断 | ・Q学習 ・モンテカルロ法 |
(supervised learning)
(unsupervised learning)
(semi-supervised learning)
(self-supervised Learning)
self-xxxxxxx Learningと言うアルゴリズムはコレの場合が多い。
予測モデルの使い分け。
今あるデータの特徴量からドメイン知識などを生かして
することで、予測性能、すなわち汎化性能を向上させる作業。
特徴量生成のパターン(数値変換)
(Machine Learning Operations)
管理 | セキュリティ | 性能 | 通信環境 | |
クラウド | ○ | △ | ○ | △ |
オンプレ | ✕ | ○ | △ | ○ |
エッジ | ✕ | △ | ✕ | ○ |
反比例のトレードオフ
ノウハウが必要(データ・パイプライン
※ 本番・運用のチェックの労力で学習データを作成し精度を上げていくサイクルを造るなど。
⽣産性向上が阻害されている主な要因はデータ・ツール・デプロイ
以下のような課題を持っている。
以下のような課題を持っている。
以下のような課題を持っている。
https://qiita.com/tk-tatsuro/items/561e9fc657422e05f0f7
https://qiita.com/tk-tatsuro/items/ec8c1a36582d4bec7924