.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

(Reinforcement learning)

歴史

ロボットの行動計画」を土台とした
ボード ゲーム(オセロ・チェス・将棋・囲碁)の例

探索木

ミニマックス探索

最悪の場合の利得を考え、これが最大となる戦略を選択する。

モンテカルロ法

用語

エージェント

環境

状態

行動

ある状態でエージェントがある行動をすると、確率的に別の状態へ遷移する。

方策

報酬

ポイント

解くべき問題

未知の環境に対する逐次的意思決定問題として
定型化(報酬を経験により推定)して解決を試みる。

難しさと対策

詳細

活用と探索のジレンマ(局所解に陥る)

活用ばかり行うと、最適な行動を見つけ出すことができない可能性が高まり、
探素ばかり行うと、不要な行動ばかりを試してしまい時間がかかってしまう。

活用と探索

多腕バンディット問題

活用と探索のバランスをとるバンディットアルゴリズム

マルコフモデル

マルコフ性を仮定しマルコフ決定過程に従うモデル

マルコフ性

マルコフ決定過程

探索の方法

ランダム法

ランダムで探索を行う。

クリーディ法

行動価値関数の値が最も大きい行動に決定(探索できない

εクリーディ法

1-εの確率でクリーディ法(εの確率でランダム法)を選択してバランスを取る。

ボルツマン選択

行動価値関数の値を考慮してクリーディ法ランダム法を選択してバランスを取る。

アルゴリズム

モデル学習方式価値推定方式方策オン/オフアルゴリズム
モデルベース価値/方策ベースDP法
モデルフリー価値ベース実績ベース方策オン/オフMC法
モデルフリー価値ベースTD学習方策オフQ学習
モデルフリー価値ベースTD学習方策オンSarsa
モデルフリー方策ベースREINFORCE
モデルフリーActor-CriticTD学習A3C

https://twitter.com/ImAI_Eruel/status/1303677795806056451/photo/1

価値ベース

ベルマン方程式

価値関数

Qテーブル

方策ベース

価値推定方式

実績ベース

モンテカルロ法(MC法)

TD法

モンテカルロの探索行為を効率的に行おうと報酬経験だけを頼りに
エピソードの終了まで待たずに状態価値関数や行動価値関数を更新する手法。

学習手法

Q学習

などがある。

Sarsa

REINFORCE

Actor Critic系

などがある。

状態表現学習

前もって環境に対する状態の特徴表現を学習することによって学習効率を高める手法

深層強化学習

手法

深層Q学習

Actor Critic法

工夫

バッチ学習

経験リプレイ

事例

ゲーム攻略

ロボティクス

シミュレーション最適化

改良されたアルゴリズム

ダブルDQN

行動価値関数を過剰に評価する弱点を克服するため、
行動選択と関数の評価を別のネットワークで行う。

デュエリング・ネットワーク

ノイジー・ネットワーク

Rainbow

DQN 以降に登場したいろいろな改良手法を全部乗せしたアルゴリズム

  1. Double Q-learning
  2. Prioritized Experience Replay
    1. Proportional Prioritization
    2. Rank-Based prioritization
  3. Dueling networks
  4. Multi-step learning
  5. Distributional RL
  6. Noisy Nets

DeepMind?

IBMのチェス専用スパコンDeep Blue(1989-2009)主任設計者の許峰雄は
チェスでの人類の敗北(1996)がより複雑な囲碁でも起きると予言(2007)し、
Google DeepMind?の開発したAlphaGoで現実となった(2015)。

AlphaGo?

A3C

(Asynchronous Advantage Actor-Critic)

参考

YouTube?


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS