「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
機械学習(machine learning)について纏める。
- 「訓練データ」として知られる
サンプルデータに基づいて数学モデルを構築する。
- 学習の方向性を人が思い通りにコントロールがし易い。
依存して、特定の課題を効率的に実行する
詳細 †
理論 †
統計的機械学習 †
- 機械学習のうちデータの確率的な生成規則を学習するもの
- テストすることで得られる最高の予測結果を生成する。
- モデルの仮定や検証は悪い予測結果を出した時のみ。
数理最適化 †
- データに対するモデル出力の誤差を定義し、
- 誤差を最小化するようにパラメータの更新(学習)をおこなう。
- 誤差を計算する関数(損失関数)を最小化する。
分類 †
教師あり学習 †
(supervised learning)
- 「訓練データ」として「出力すべきもの」も入力として与える手法
- 「出力すべきもの」は
- ラベルとも呼ばれる
- 人間の専門家が訓練例にラベル付けして提供
- 未知のデータ「x」にそれを適用して、
予言 y = f(x) を与えることができる。
教師なし学習 †
(unsupervised learning)
- 「訓練データ」の背後に存在する本質的な構造を抽出する。
- 「出力すべきもの」があらかじめ決まっていない。
という点で教師あり学習とは大きく異なる。
半教師あり学習 †
(semi-supervised learning)
- ラベルありの例とラベルなしの例を両方扱える。
- すべてのデータにラベルを付けなくても良いので、効果的な学習が可能。
強化学習 †
(reinforcement learning)
- 周囲の環境を観測することでどう行動すべきかを学習する。
- 行動によって必ず環境に影響を及ぼし、
環境からフィードバックを得て、学習のガイドとする。
深層学習 †
ニューラルネットワークを使用した機械学習の一種
思わぬ方向に学習が進む可能性がある。
その他 †
- トランスダクション(トランスダクティブ推論)
観測された具体的な(訓練)例から
具体的かつ固定の(テスト)例の
新たな出力を予測しようとする。
- マルチタスク学習
関連する複数の問題について同時に学習させ、
主要な問題の予測精度を向上させる。
技法 †
エキスパート・システム †
- 膨大な情報と条件を照らし合わせながら、最適な提案を導き出す。
- 応用例
組み合わせが膨大となるような領域でうまく機能する。
- 自動音声応答装置、人工無脳
- 障害診断、医療診断
- 複雑系、プロセス制御
- 意思決定支援
サポートベクターマシン †
- 統計・確率論(機械学習)
- 教師あり学習を用いるパターン認識モデルの一つ
- 認識性能が優れた学習モデルの一つ。
- 未学習データに対して高い識別性能を得るための工夫がある
- 応用例
- テキストマイニング
- 災害危険度評価
- 倒産判別問題
- 非線形な競馬予測
事例ベース推論(CBR) †
- 情報を蓄積して分析し、
ある事例に類似した事例を導き出す。
- 原型
- 自動車整備士が以前の似たような故障を思い出してエンジンの修理
- 弁護士が裁判で判例に基づく主張を展開
- 技術者が自然界にあるものを模倣
- 4段階のプロセス
- 検索: 問題に対応した事例を検索する。
- 再利用: 事例から与えられた問題の解法を得る。
- 修正: 新しい解法を試して、必要ならば改良を加える。
- 記憶: うまく適応した解法が得られたら、その経験を新たな事例として記憶する。
- 統計的に適切なデータがないと、その一般化が正しいという保証ができない。
ベイジアンネットワーク †
- 確率推論のモデル
- 複雑な因果関係の推論を有向非巡回グラフ構造により表す
- 個々の変数の関係を条件つき確率で表す
- 応用例
- 医者の診断
- コールセンター効率化
- レコメンド
- EC/金融の商品の推薦
- 優良顧客の推薦
- マッチングビジネス
課題 †
⽣産性向上が阻害されている主な要因はデータ・ツール・デプロイ
課題 †
以下のような課題を持っている。
- 低品質でサイロ化︓データ活⽤が進まない
データサイエンス・機械学習のためにデータが”Ready” となっていない
- 整合性の維持
- ざっくり、スキーマが無い事が問題
- スキーマレスの状態からデータの加工に時間がかかる
- 更新の重複への対応
- 読み取りのスケーラビリティが高い
- 一方で、更新処理が苦手(トランザクション制御)
プロダクト †
ツール †
課題 †
以下のような課題を持っている。
- ⼤量のツール群︓チーム活⽤が不⼗分
ツールやフレームワークの共有、ナレッジの
管理、コラボレーション、再現性が厳しい。
プロダクト †
デプロイ †
課題 †
以下のような課題を持っている。
- 本番適⽤︓MLのデプロイが困難
エラーが発⽣しやすい⼿作業によりイノベーションのスピードが減速
プロダクト †
参考 †
Wikipedia †
学習 †