強化学習（Reinforcement Learning）のバックアップ(No.3)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る（人工知能（AI）
- 機械学習（machine learning）
- 深層学習（deep learning）
- 強化学習（Reinforcement Learning）
- 生成系AI（Generative AI）

目次 †

目次
概要
詳細
アルゴリズム
深層強化学習
参考
- YouTube

↑

概要 †

（Reinforcement learning）

大脳基底核の働きを模倣の働きを模倣しているらしい。

得られる結果（報酬）から何かを学んでいくように、
次の時刻の行為の結果（報酬）から学習していく能動的な学習

教師あり学習、教師なし学習とは別の概念で、
一連の行動系列の結果としての報酬を最大化するように学習する。

次の時刻の行動によって必ず環境に影響を及ぼし、
環境からフィードバックを得て、学習のガイドとする。
- 迷路の最短ルートを見つけ出す。
- 赤ちゃんが泣いたり声を出したり動いたり

↑

歴史 †

「ロボットの行動計画」を土台とした
ボードゲーム（オセロ・チェス・将棋・囲碁）の例

↑

探索木 †

ボードゲームをコンピューターで解く基本は探索だが、
組み合わせの数が天文学的な数字に事実上すべてを探索しきれない。
知識や経験（ヒューリスティックな知識）を利用して、
自分が有利か不利かを示すスコア（ゲーム盤の状態）を情報を計算し、
コスパ（コスト・パフォーマンス）の観点から効率の良い探索を行うようにすることができる。

↑

ミニマックス探索 †

最悪の場合の利得を考え、これが最大となる戦略を選択する。

ゼロサム2人ゲーム
- ゲーム理論で扱われるゲームの中で最も簡単かつ基礎的なもの。
- 2人のプレーヤーで争われ、一方の利得が他方の損失となる形のゲーム。

混合戦略

「絶対優位」「絶対劣位」「ナッシュ均衡」で戦略が定まらない同時進行ゲームで、
- さまざまな打ち手を混ぜて使う。
- 自分の動きをランダム化する戦略。

例えば、サッカーのペナルティ・キック

キッカーが左サイドを狙った時、キーパーが
・右に動けば成功率は高い
・左に動けば成功率は低い

キッカーが右サイドを狙った時、キーパーが
・右に動けば成功率は高い
・左に動けば成功率は低い

キーパーの動きをランダム化することによりシュート成功率を低めることができる。

ミニマックス定理
ゲーム理論の最も標準形となる“ゼロサム2人ゲーム”の主要定理。

マクシマックス原理にのっとった戦略
- ハイリスク、ハイリターンのイメージ
- 戦略案毎の「最良の結果」に注目し、最良中で最大の利得を与える戦略を選択する

ミニマックス原理にのっとった戦略
- ローリスク、ローリターンのイメージ
- 相手がマクシミン原理を採ることを前提としたもの。
- 戦略案毎の「最良の結果」に注目し、最良中で最小の利得を与える戦略を選択する
- それによって得られる利得を「ミニマックス値」と言う。

マクシミン原理にのっとった戦略
- ローリスク、ローリターンのイメージ
- 相手がミニマックス原理を採ることを前提としたもの。
- 戦略案毎の「最悪の結果」に注目し、最悪中の最大の利得を与える戦略を選択する。
- それによって得られる利得を「マクシミン値」と言う。

ゼロサム2人ゲームで混合戦略を許した場合、

双方のプレーヤーが戦略配分を合理的に行う限り、
（両者がともに合理的な行動、すなわち相手も十分に利口
であると考えて自己の損失を最小限にする手をとるならば）

両者が均衡する最適戦略が必ず存在する
（混合戦略の範囲内で両者のとるべき戦略は定まる）

ミニマックス値とマクシミン値が一致する点を「鞍点」
鞍点を持つならば純粋戦略で均衡点を見出すことができる。
鞍点が存在しない場合も混合戦略の組み合わせと確率をミニマックスで考えると、
両プレーヤーにとっての最適戦略（妥協点）が見つかる。

相手の手番で自分に大きな損害が出る or 自分の手番で相手に大きな利得が出る盤面を得る選択を見つけたら、
その選択（に辿り着く選択）を行わないので、探索を中断し計算回数を減らす（αβ法のα or βカット
- αカット：相手の手番で自分に大きな損害が出る盤面を得るに辿り着く選択以下を探索しない。
- βカット：自分の手番で相手に大きな利得が出る盤面を得る選択以下を探索しない。

↑

モンテカルロ法 †

19路盤でない9路盤でもコンピュータがアマチュア初段に勝つのは難しかった。
探索の計算量ではなく、ゲーム盤のスコアに問題があることが解ってきた。
スコアをプレイアウト（ランダムなブルートフォース、モンテカルロ法）に変更。
- スコア（ゲーム盤の状態）を情報を計算する方法。
- ただし、計算量が多いので19路盤では実行できなかった。

↑

用語 †

↑

エージェント †

行動する主体
マルチ・エージェントでは他のエージェントと報酬を共有

↑

環境 †

エージェントが行動する場
エージェントからは未知
探索により経験して学習

↑

状態 †

環境中でエージェントが観測
エージェントの行動により変化

↑

行動 †

ある状態でエージェントがある行動をすると、確率的に別の状態へ遷移する。

↑

方策 †

上記の状態から行動を確率的に決定

方策の最適化には大きく方策ベースと価値ベースの2つがある
- 価値ベース：方策πを間接的に行動価値Qをモデル化した関数で最適化する手法
- 方策ベース：方策πを直接的にモデル化した関数をつくりコレを最適化する手法

↑

報酬 †

行動毎に報酬が得られる。
これを最大化するように学習
短期的にか？中長期的にか？（割引率による
累積報酬和 → 割引率を考慮 → 割引累積報酬和
方策によって割引（累積）報酬和が変化する。

↑

ポイント †

↑

解くべき問題 †

未知の環境に対する逐次的意思決定問題として
定型化（報酬を経験により推定）して解決を試みる。

将来の報酬を最大化するための、現在の行動の意思決定
行動に対する状態変化と報酬が未知の時、探索方法も考慮。

↑

難しさと対策 †

過去の状態⾏動の組み合わせが爆発
遅延報酬（前述の割引累積報酬和）

↑

詳細 †

↑

活用と探索のジレンマ（局所解に陥る） †

活用ばかり行うと、最適な行動を見つけ出すことができない可能性が高まり、
探素ばかり行うと、不要な行動ばかりを試してしまい時間がかかってしまう。

↑

活用と探索 †

活用（exploitation）：現在知っている情報の中から報酬が最大となるような行動を選ぶ
探索（exploration）：現在知っている情報以外の情報を獲得するために行動を選ぶ

↑

多腕バンディット問題 †

活用と探索のバランスをとるバンディットアルゴリズム

ε-greedy方策（epsilon greedy policy）
- 基本的には活用をする、すなわち報酬が最大となる行動を選択するが、
- 一定確率をで探索をする、すなわちランダムな行動を選択する。

UCB方策（upper-confidence bound policy）

↑

マルコフモデル †

マルコフ性を仮定しマルコフ決定過程に従うモデル

↑

マルコフ性 †

ある時刻の状態は一つ前の時刻の状態と行動に依存して確率的に決定される。
現在の状態から将来の状態へ遷移する確率は、現在の状態のみに依存し、それ以前の状態には一切依存しない。

↑

マルコフ決定過程 †

報酬を最大化するための行動を時間ステップで行う。
強化学習の基礎（計算を簡素化する目的
マルコフモデルに従わない場合を扱う場合もある。

↑

探索の方法 †

↑

ランダム法 †

ランダムで探索を行う。

↑

クリーディ法 †

行動価値関数の値が最も大きい行動に決定（探索できない

↑

εクリーディ法 †

1-εの確率でクリーディ法（εの確率でランダム法）を選択してバランスを取る。

↑

ボルツマン選択 †

行動価値関数の値を考慮してクリーディ法、ランダム法を選択してバランスを取る。

↑

アルゴリズム †

モデル	学習方式	価値推定方式	方策オン/オフ	アルゴリズム
モデルベース	価値/方策ベース	―	―	DP法
モデルフリー	価値ベース	実績ベース	方策オン/オフ	MC法
モデルフリー	価値ベース	TD学習	方策オフ	Q学習
モデルフリー	価値ベース	TD学習	方策オン	Sarsa
モデルフリー	方策ベース	―	―	REINFORCE
モデルフリー	Actor-Critic	TD学習	―	A3C

https://twitter.com/ImAI_Eruel/status/1303677795806056451/photo/1

↑

価値ベース †

最適な方策を直接、見つけ出すのは困難な場合多いので、価値関数を最適化する方法。

マルコフモデルの場合、行動も報酬も再帰構造になる

↑

ベルマン方程式 †

強化学習の目的は、行動あるいは状態に対する報酬(価値関数)を最大化する方策を見つける事

しかしそれを見つけるためには、すべての状態にわたって報酬(価値関数)を計算する必要がある。

これを効率よく計算するために用いられるのがベルマン方程式
- ある状態sとその次の状態s'の報酬(価値関数)を関連付ける方程式
- なお、この方程式が成り立つ前提として、学習対象がマルコフ決定過程に従う必要がる。

↑

価値関数 †

状態価値関数
ある状態の時、ある方策に従って行動する事で、
将来に得る事が期待される割引報酬和を表す関数

行動価値関数（Q値、Q関数とも）
状態価値関数との違いは、初めに方策と無関係の行動をとるか否か。

最適行動価値関数（Q*）
最適方策が決められたときに定義される。
コレを獲得することが強化学習の目的だが、
- 最初は環境から得られる報酬を知らないので探索を考慮する。
- 探索を考慮するにはどのように方策を決定するか？

↑

Qテーブル †

価値関数の実装の一つ
状態（行）、行動（列）、報酬（Q値）をマトリックスによって管理する。
マトリックスのQ値は学習によって更新される。
エージェントはQ値が最も高くなる行動を選択する。
ただし、Qテーブルが巨大になり過ぎると学習が上手く進まなくなる。
他の実装方式に線形関数、ニューラルネット（DQN）等がある。

↑

方策ベース †

直接最適方策を見つけ出そうというアプローチ

特に行動の選択肢が大量にあるような課題で価値算出する場合、
莫大な計算コストがかかって学習が行えない。と言う懸念あるため用いられる。

方策をあるパラメタで表された関数とし、
（累積報酬の期待値が最大となるように）
パラメタ学習することで、直接学習するアプローチ。

↑

TD法 †

モンテカルロの探索行為を効率的に行おうと報酬経験だけを頼りに
エピソードの終了まで待たずに状態価値関数や行動価値関数を更新する手法。

DP法とMC法の利点を掛け合わせた学習
- 動的計画法（DP法）
- モンテカルロ法（MC法）

TD誤差

自分が行動する前に思っていた行動の評価値と、
実際行動してみて評価したその行動の評価値との誤差

状態価値関数や行動価値関数のTD誤差がある。

TD誤差が０になるように学習する。

↑

学習手法 †

↑

Q学習 †

方策オフ型のTD学習。
方策に関係なく行動価値関数の最大値で行動価値関数を更新

応用手法も沢山、考えられており、
- DQN
- 優先度付き経験再生
- ダブルDQN、デュエリング・ネットワーク
- Gorila、Ape-X、R2D2

などがある。

↑

Sarsa †

方策オン型のTD学習。
方策（実際の行動）に基づいたて行動価値関数を更新

↑

REINFORCE †

↑

Actor Critic系 †

また関数ベースおよび方策勾配ベースの考え方を組み合わせたというアプローチ

以下の要素から成っているのがその名前の由来。

行動を決めるActor（行動器）
方策（Criticの評価をもとに更新）をもとに行動を選択し、実行

方策を評価するCritic（評価器）
Actorが選択した行動の状態の変化と報酬を観測・TD誤差などで評価しActorに通知

応用手法も沢山、考えられており、
- A3C
- DDPG
- TRPO
- PPO
- ACER
- UNREAL
- Natural Actor-Critic (NAC)
- Soft Actor-Critic (SAC)
  目的関数に方策のエントロピー最大化項を加えたもの

などがある。

↑

状態表現学習 †

前もって環境に対する状態の特徴表現を学習することによって学習効率を高める手法

↑

深層強化学習 †

強化学習はQテーブルなど離散的な状態表現での手法。
連続量の入出力を扱う関数近似器にニューラルネットワークを使う。

↑

手法 †

↑

深層Q学習 †

行動価値関数（Q値、Q関数とも）をQテーブルではなく
CNNなどのニューラルネットワークにより表現。

DQN（Deep Q-Network）が最も基本的な手法

↑

Actor Critic法 †

↑

工夫 †

↑

バッチ学習 †

↑

経験リプレイ †

↑

事例 †

↑

ゲーム攻略 †

具体
- TVゲーム攻略
- 完全情報ゲーム攻略（AlphaGo

工夫
自己対戦による学習

↑

ロボティクス †

プログラミングで難しいタスク
直接的な教示が難しいタスク
単純労働などロボットによる労働代替

具体
- 自動運転
- 産業用ロボット制御

工夫
- 人間からの教示
- 物理シミュレーション（Sim2Real

↑

シミュレーション最適化 †

空調の制御
株式の自動取引
広告配信最適化
インターネット
例えば、PV（≒報酬）を向上させるサイトマップ設計（≒行動）

↑

改良されたアルゴリズム †

↑

ダブルDQN †

行動価値関数を過剰に評価する弱点を克服するため、
行動選択と関数の評価を別のネットワークで行う。

Target-Q-network：行動価値関数の評価
Q-network：最適な行動の選択

↑

デュエリング・ネットワーク †

強化学習のネットワーク構造を改良したモデル
状態行動価値Qではなく状態価値VとQからVを引いたアドバンテージVを学習

↑

ノイジー・ネットワーク †

ネットワークの重みにノイズを加えることで、広範囲の探索を実現
ε-greedy法では出来なかった広い空間の探索が出来るようになった。

↑

Rainbow †

DQN 以降に登場したいろいろな改良手法を全部乗せしたアルゴリズム

Double Q-learning
Prioritized Experience Replay
1. Proportional Prioritization
2. Rank-Based prioritization
Dueling networks
Multi-step learning
Distributional RL
Noisy Nets

↑

DeepMind? †

IBMのチェス専用スパコンDeep Blue（1989-2009）主任設計者の許峰雄は
チェスでの人類の敗北（1996）がより複雑な囲碁でも起きると予言（2007）し、
Google DeepMind?の開発したAlphaGoで現実となった（2015）。

↑

AlphaGo? †

DQNを用いた碁プログラム
- 基盤の状況認識にCNN（画像ではなく、盤面をベクトルとして表現）を使用
- 次の手の選択に、エンコード結果を利用したモンテカルロ木探索を使用

セルフプレイ
- 偏見に捕われず学習を進めた方が良い場合がある
- 過去の名人戦の棋譜を学習するのではなく0から学習する

AlphaGo?のアルゴリズム
AlphaGo?のアルゴリズムはAlphaGo? Master以前とAlphaGo? Zero以降で大きく異なる。

初期のアルゴリズムの基本アイデア

モンテカルロ木探索、評価関数、方策関数
（例１）単純なケース
・評価関数 = 自分の色の石の数
・方策関数 = 2手先読みして評価関数の値が上がるような手だけを残して探索する
（例２）単純なケース
・途中までは（例１）と同じ方針で枝刈りしながら探索
・途中で探索を打ち切り、そこから先はランダムに打てる手を打つ。
・これをｎ回実行して、勝利する回数が一番多かった手を選択する

問題と対策
・評価関数、方策関数がうまく作れない → ニューラルネットワークの使用
・なかなか学習が始まらない → Ph１教師あり学習、Ph２教師なし学習（強化学習）

AlphaGo? Zero以降のアイデア
- 人間を超越してしまうと、教師とするものがなくなる。
- 教師あり学習のフェーズを完全に取り払い、初めから強化学習を行った。

AlphaGo?のバージョン
DeepMind?社の囲碁ソフトウェアであるAlphaGo?のバージョン

AlphaGo? Fan
- 初代バージョン。GPU176台を使用。
- 2015/10、コンピュータ囲碁として初めてプロ棋士に互先での勝利（5戦5勝）。

AlphaGo? Lee
- 2代目バージョン。TPU48台を使用。
- 2016/3、李世ドルと戦い、4勝1敗と勝ち越した。

AlphaGo? Master
- 3代目バージョン。TPU4台を使用。
- 名称はオンライン上でのアカウント名（当初はMagister/Magist）に由来
- 2016/12/29 - 2017/1/4、プロ囲碁棋士にオンライン対局で60連勝。
- 2017/5、人類最強の棋士である柯潔に3戦全勝。

AlphaGo? Zero
- 2017/10/19、4代目バージョン。TPU4台を使用。
- 棋譜やビッグデータを必要とせず自己対局によって強化される。
- 全くの初心者の状態から3日間の学習でAlphago Leeのレベルに到達
- 21日目にMasterと肩を並べ40日間の学習後、
  ・AlphaGo? Leeには100戦全勝
  ・AlphaGo? Masterには89勝11敗

AlphaZero?
- 2017/12、AlphaGo? Zeroの汎用バージョン
- トップチェスプログラム（Stockfish）、トップ将棋プログラム（elmo）を破る。

↑

A3C †

（Asynchronous Advantage Actor-Critic）

DeepMind?のVolodymyr Mnih(ムニ)のチームが提案した強化学習の学習法の一つ

特徴

同一の環境で
複数のエージェントが
非同期に学習すること

A3Cの名前の由来

Asynchronous	複数のエージェントによる非同期な並列学習
Advantage	複数ステップ先を考慮して更新する手法
Actor	方策によって行動を選択
Critic	状態価値関数に応じて方策を修正

※ Actor Critic

非同期な並列学習
- 複数エージェントが並列にrollout(ゲームプレイ) を実行し、勾配計算を行う。
- その勾配情報をもって、global networkのパラメタ・サーバを更新する。
- 各エージェントは定期的にlocal networkの重みをglobal networkの重みと同期する。

A2C：同期化
- 各エージェントが一斉に１ステップ進行、
- 各エージェントから遷移先状態の報告を受けて次の行動を指示

安定化：サンプルを集めるエージェントを並列化することで自己相関を低減
ランダム性の高い方策にボーナスを与え、収束が早すぎて局所解に停滞する事態を防ぐ

↑

参考 †

↑

強化学習（Reinforcement Learning） のバックアップ(No.3)