.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

(Reinforcement learning)

歴史

ロボットの行動計画」を土台とした
ボード ゲーム(オセロ・チェス・将棋・囲碁)の例

探索木

ミニマックス探索

最悪の場合の利得を考え、これが最大となる戦略を選択する。

モンテカルロ法

強化学習

深層強化学習

手法

深層Q学習

Actor Critic法

工夫

バッチ学習

経験リプレイ

事例

ゲーム攻略

ロボティクス

シミュレーション最適化

改良されたアルゴリズム

ダブルDQN

行動価値関数を過剰に評価する弱点を克服するため、
行動選択と関数の評価を別のネットワークで行う。

デュエリング・ネットワーク

ノイジー・ネットワーク

Rainbow

DQN 以降に登場したいろいろな改良手法を全部乗せしたアルゴリズム

  1. Double Q-learning
  2. Prioritized Experience Replay
    1. Proportional Prioritization
    2. Rank-Based prioritization
  3. Dueling networks
  4. Multi-step learning
  5. Distributional RL
  6. Noisy Nets

DeepMind?

IBMのチェス専用スパコンDeep Blue(1989-2009)主任設計者の許峰雄は
チェスでの人類の敗北(1996)がより複雑な囲碁でも起きると予言(2007)し、
Google DeepMind?の開発したAlphaGoで現実となった(2015)。

AlphaGo?

A3C

(Asynchronous Advantage Actor-Critic)

参考

YouTube?

AIcia Solid Project

再生リスト 強化学習の探検 - YouTube?
https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR

データサイエンス研究所

再生リスト 強化学習 - YouTube?
https://www.youtube.com/playlist?list=PL7BUpEjz_maQjfwIhAzkwxaLYIecfN7QP

ゼロから作るDeep Learning

サンプル

https://github.com/oreilly-japan/deep-learning-from-scratch-4

その他、参考


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS