.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

(reinforcement learning)

歴史

ロボットの行動計画」を土台とした
ボード ゲーム(オセロ・チェス・将棋・囲碁)の例

探索木

ミニマックス探索

最悪の場合の利得を考え、これが最大となる戦略を選択する。

モンテカルロ法

用語

エージェント

行動する主体

環境

状態

行動

ある状態でエージェントがある行動をすると、確率的に別の状態へ遷移する。

方策

報酬

ポイント

解くべき問題

未知の環境に対する逐次的意思決定問題として
定型化(報酬を経験により推定)して解決を試みる。

難しさと対策

詳細

活用と探索のジレンマ(局所解に陥る)

活用ばかり行うと、最適な行動を見つけ出すことができない可能性が高まり、
探素ばかり行うと、不要な行動ばかりを試してしまい時間がかかってしまう。

活用と探索

多腕バンディット問題

活用と探索のバランスをとるバンディットアルゴリズム

マルコフモデル

マルコフ性を仮定しマルコフ決定過程に従うモデル

マルコフ性

マルコフ決定過程

探索の方法

ランダム法

ランダムで探索を行う。

クリーディ法

行動価値関数(Q値、Q関数とも)の値が最も大きい行動に決定(探索できない

εクリーディ法

1-εの確率でクリーディ法(εの確率でランダム法)を選択してバランスを取る。

ボルツマン選択

行動価値関数(Q値、Q関数とも)の値を考慮してクリーディ法ランダム法を選択してバランスを取る。

アルゴリズム

モデル学習方式価値推定方式方策オン/オフアルゴリズム
モデルベース価値/方策ベースDP法
モデルフリー価値ベース実績ベース方策オン/オフMC法
モデルフリー価値ベースTD学習方策オフQ学習
モデルフリー価値ベースTD学習方策オンSarsa
モデルフリー方策ベースREINFORCE
モデルフリーActor-CriticTD学習A3C

https://twitter.com/ImAI_Eruel/status/1303677795806056451/photo/1

価値ベース

ベルマン方程式

価値関数

Qテーブル

方策ベース

価値推定方式

実績ベース

モンテカルロ法(MC法)

TD法

モンテカルロの探索行為を効率的に行おうと報酬経験だけを頼りに
エピソードの終了まで待たずに状態価値関数や行動価値関数を更新する手法。

学習手法

Q学習

などがある。

Sarsa

REINFORCE

Actor Critic系

などがある。

深層強化学習

手法

深層Q学習

Actor Critic法

工夫

バッチ学習

経験リプレイ

事例

ゲーム攻略

ロボティクス

シミュレーション最適化

DeepMind?

AlphaGo?

A3C

(Asynchronous Advantage Actor-Critic)

Actor Critic

参考


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS