.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

(reinforcement learning)

歴史

ロボットの行動計画」を土台とした
ボード ゲーム(オセロ・チェス・将棋・囲碁)の例

探索木

ミニマックス探索

最悪の場合の利得を考え、これが最大となる戦略を選択する。

モンテカルロ法

用語

エージェント

行動する主体

環境

状態

行動

ある状態でエージェントがある行動をすると、確率的に別の状態へ遷移する。

方策

報酬

ポイント

解くべき問題

未知の環境に対する逐次的意思決定問題として
定型化(報酬を経験により推定)して解決を試みる。

難しさと対策

詳細

活用と探索のジレンマ(局所解に陥る)

活用ばかり行うと、最適な行動を見つけ出すことができない可能性が高まり、
探素ばかり行うと、不要な行動ばかりを試してしまい時間がかかってしまう。

活用と探索

多腕バンディット問題

活用と探索のバランスをとるバンディットアルゴリズム

マルコフモデル

マルコフ性を仮定しマルコフ決定過程に従うモデル

マルコフ性

マルコフ決定過程

価値学習

ベルマン方程式

価値関数

Qテーブル

方策学習

方策勾配法系

Actor Critic系

などがある。

探索の方法

ランダム法

ランダムで探索を行う。

クリーディ法

行動価値関数(Q値、Q関数とも)の値が最も大きい行動に決定(探索できない

εクリーディ法

1-εの確率でクリーディ法(εの確率でランダム法)を選択してバランスを取る。

ボルツマン選択

行動価値関数(Q値、Q関数とも)の値を考慮してクリーディ法、ランダム法を選択してバランスを取る。

学習手法

DP法、MC法とかもあるらしいが、

TD法

報酬経験だけを頼りにエピソードの終了まで待たずに状態価値関数や行動価値関数を更新する手法。

アクター・クリティック法

以下で構成される強化学習のフレームワークの1つ

深層強化学習

手法

工夫

事例

DeepMind?

AlphaGo?

A3C

(Asynchronous Advantage Actor-Critic)

Actor Critic

参考


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS