「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
(reinforcement learning)
「ロボットの行動計画」を土台とした
ボード ゲーム(オセロ・チェス・将棋・囲碁)の例
最悪の場合の利得を考え、これが最大となる戦略を選択する。
行動する主体
ある状態でエージェントがある行動をすると、確率的に別の状態へ遷移する。
未知の環境に対する逐次的意思決定問題として
定型化(報酬を経験により推定)して解決を試みる。
活用ばかり行うと、最適な行動を見つけ出すことができない可能性が高まり、
探素ばかり行うと、不要な行動ばかりを試してしまい時間がかかってしまう。
活用と探索のバランスをとるバンディットアルゴリズム
ランダムで探索を行う。
行動価値関数(Q値、Q関数とも)の値が最も大きい行動に決定(探索できない
1-εの確率でクリーディ法(εの確率でランダム法)を選択してバランスを取る。
行動価値関数(Q値、Q関数とも)の値を考慮してクリーディ法、ランダム法を選択してバランスを取る。
モデル | 学習方式 | 価値推定方式 | 方策オン/オフ | アルゴリズム |
モデルベース | 価値/方策ベース | ― | ― | DP法 |
モデルフリー | 価値ベース | 実績ベース | 方策オン/オフ | MC法 |
モデルフリー | 価値ベース | TD学習 | 方策オフ | Q学習 |
モデルフリー | 価値ベース | TD学習 | 方策オン | Sarsa |
モデルフリー | 方策ベース | ― | ― | REINFORCE |
モデルフリー | Actor-Critic | TD学習 | ― | A3C |
https://twitter.com/ImAI_Eruel/status/1303677795806056451/photo/1
モンテカルロの探索行為を効率的に行おうと報酬経験だけを頼りに
エピソードの終了まで待たずに状態価値関数や行動価値関数を更新する手法。
などがある。
などがある。
(Asynchronous Advantage Actor-Critic)
Asynchronous | 複数のエージェントによる非同期な並列学習 |
Advantage | 複数ステップ先を考慮して更新する手法 |
Actor | 方策によって行動を選択 |
Critic | 状態価値関数に応じて方策を修正 |