「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
(Reinforcement learning)
「ロボットの行動計画」を土台とした
ボード ゲーム(オセロ・チェス・将棋・囲碁)の例
最悪の場合の利得を考え、これが最大となる戦略を選択する。
ある状態でエージェントがある行動をすると、確率的に別の状態へ遷移する。
未知の環境に対する逐次的意思決定問題として
定型化(報酬を経験により推定)して解決を試みる。
活用ばかり行うと、最適な行動を見つけ出すことができない可能性が高まり、
探素ばかり行うと、不要な行動ばかりを試してしまい時間がかかってしまう。
活用と探索のバランスをとるバンディットアルゴリズム
ランダムで探索を行う。
1-εの確率でクリーディ法(εの確率でランダム法)を選択してバランスを取る。
行動価値関数の値を考慮してクリーディ法、ランダム法を選択してバランスを取る。
モデル | 学習方式 | 価値推定方式 | 方策オン/オフ | アルゴリズム |
モデルベース | 価値/方策ベース | ― | ― | DP法 |
モデルフリー | 価値ベース | 実績ベース | 方策オン/オフ | MC法 |
モデルフリー | 価値ベース | TD学習 | 方策オフ | Q学習 |
モデルフリー | 価値ベース | TD学習 | 方策オン | Sarsa |
モデルフリー | 方策ベース | ― | ― | REINFORCE |
モデルフリー | Actor-Critic | TD学習 | ― | A3C |
https://twitter.com/ImAI_Eruel/status/1303677795806056451/photo/1
モンテカルロの探索行為を効率的に行おうと報酬経験だけを頼りに
エピソードの終了まで待たずに状態価値関数や行動価値関数を更新する手法。
などがある。
などがある。
前もって環境に対する状態の特徴表現を学習することによって学習効率を高める手法
行動価値関数を過剰に評価する弱点を克服するため、
行動選択と関数の評価を別のネットワークで行う。
DQN 以降に登場したいろいろな改良手法を全部乗せしたアルゴリズム
IBMのチェス専用スパコンDeep Blue(1989-2009)主任設計者の許峰雄は
チェスでの人類の敗北(1996)がより複雑な囲碁でも起きると予言(2007)し、
Google DeepMind?の開発したAlphaGoで現実となった(2015)。
(Asynchronous Advantage Actor-Critic)
Asynchronous | 複数のエージェントによる非同期な並列学習 |
Advantage | 複数ステップ先を考慮して更新する手法 |
Actor | 方策によって行動を選択 |
Critic | 状態価値関数に応じて方策を修正 |