「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †概要 †機械学習(machine learning)について纏める。
定義 †
応用例 †詳細 †理論 †情報理論 †統計的機械学習 †数理最適化 †独立同時分布仮定 †用語 †特徴量 †
パラメタ †重みとも呼ばれるモデルの学習実行後に獲得される値。 ハイパーパラメタ †
パラメトリック・モデル †
ノンパラメトリック・モデル †
アルゴリズム †
適合 †
限界 †
汎化性能 †学習に使用したデータだけではなく、新たなデータに対する予測性能。
未学習 †(学習不足、アンダーフィッティング)
過学習 †(過剰適合、過適合、オーバーフィッティング)
内挿と外挿 †あるデータを使って訓練した機械学習モデルにおいて、
予測誤差を生む要因 †
実行手順 †※ より専門的なプロセスについては、CRISP-DMを参照。 データ作成 †良いデータの準備が性能発揮の生命線となる。
学習の実行 †
利用と追加学習 †学習方法 †アノテーション †
アクティブ・ラーニング †本番運用しながら自然に追加学習できる仕組み
アンサンブル学習 †
モデルの統合・分割 †色々なデータを使う場合、色々なモデルが必要になる。
活用例 †データマイニング †エキスパート・システム †
不正会計の検知 †
ベイズ云々の活用例 †
機械学習の分類 †
学習データでの分類 †
教師あり学習 †(supervised learning)
教師なし学習 †(unsupervised learning)
半教師あり学習 †(semi-supervised learning)
自己教師あり学習 †(self-supervised Learning)
self-xxxxxxx Learningと言うアルゴリズムはコレの場合が多い。 利用方法での分類 †
推定 †
分類 †
回帰 †
認識 †
創出 †
自己組織化 †
その他 †深層学習 †強化学習 †深層強化学習 †その他 †
統計と機械学習 †基礎的な違い †
統計学 †
機械学習 †
使い分け †予測モデルの使い分け。 統計 †
機械学習 †
特徴量の選択とエンジニアリング †今あるデータの特徴量からドメイン知識などを生かして
することで、予測性能、すなわち汎化性能を向上させる作業。 CRISP-DM上の †データの理解 †データの準備 †テクニック †欠損値の処理 †
相関係数を確認 †
特徴量選択 †
エンコーディング †
特徴量作成 †特徴量生成のパターン(数値変換)
スタッキング †
不均衡データに対するサンプリング †
Pythonでの処理例 †Pandas †Matplotlib †モデル評価のエンジニアリング †モデルの評価 †精度の評価 †精度と説明力 †モデル・チューニングのエンジニアリング †チューニング †グリッド・サーチ †ランダム・サーチ †多目的ベイズ最適化 †特徴選択とエンジニアリング †モデル評価のエンジニアリング †MLOps(エンジニアリング部分の自動化 †(Machine Learning Operations)
CX †CI/CD †CT/CM †
ポイント †動作環境 †
精度・速度 †反比例のトレードオフ サーバ構成 †ノウハウが必要(データ・パイプライン 安定運用 †
※ 本番・運用のチェックの労力で学習データを作成し精度を上げていくサイクルを造るなど。 Auto ML †
課題(を解決するクラスド・サービス †⽣産性向上が阻害されている主な要因はデータ・ツール・デプロイ データレイク †課題 †以下のような課題を持っている。
プロダクト †ツール †課題 †以下のような課題を持っている。
プロダクト †
デプロイ †課題 †以下のような課題を持っている。
プロダクト †参考 †
特徴量の選択とエンジニアリング †
農学情報科学 †機械学習 †https://axa.biopapyrus.jp/machine-learning/ 深層学習 †Qiita †
データ分析 †https://qiita.com/tk-tatsuro/items/561e9fc657422e05f0f7 特徴量の選択とエンジニアリング †
モデル構築・適用 †https://qiita.com/tk-tatsuro/items/ec8c1a36582d4bec7924 Wikipedia †アルゴリズム、モデル †学習データでの分類 †
活用例 † |