強化学習（reinforcement Learning）のバックアップ(No.5)

バックアップ一覧
ソースを表示
強化学習（reinforcement Learning）は削除されています。
- 1 (2022-08-24 (水) 15:15:08)
- 2 (2022-08-24 (水) 18:00:41)
- 3 (2022-08-24 (水) 20:45:08)
- 4 (2022-10-19 (水) 00:56:23)
- 5 (2022-10-19 (水) 13:38:50)
- 6 (2022-10-19 (水) 14:14:05)
- 7 (2022-10-20 (木) 00:41:24)
- 8 (2023-01-11 (水) 17:35:22)
- 9 (2023-03-04 (土) 01:01:50)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る（人工知能（AI）
- 機械学習（machine learning）
- 深層学習（deep learning）
- 強化学習（reinforcement Learning）

↑

概要 †

（reinforcement learning）

大脳基底核の働きを模倣の働きを模倣しているらしい。

得られる結果（報酬）から何かを学んでいくように、
次の時刻の行為の結果（報酬）から学習していく能動的な学習

教師あり学習、教師なし学習とは別の概念で、
一連の行動系列の結果としての報酬を最大化するように学習する。

次の時刻の行動によって必ず環境に影響を及ぼし、
環境からフィードバックを得て、学習のガイドとする。
- 迷路の最短ルートを見つけ出す。
- 赤ちゃんが泣いたり声を出したり動いたり

↑

歴史 †

「ロボットの行動計画」を土台とした
ボードゲーム（オセロ・チェス・将棋・囲碁）の例

↑

探索木 †

ボードゲームをコンピューターで解く基本は探索だが、
組み合わせの数が天文学的な数字に事実上すべてを探索しきれない。
知識や経験（ヒューリスティックな知識）を利用して、
自分が有利か不利かを示すスコア（ゲーム盤の状態）を情報を計算し、
コスパ（コスト・パフォーマンス）の観点から効率の良い探索を行うようにすることができる。

↑

ミニマックス探索 †

最悪の場合の利得を考え、これが最大となる戦略を選択する。

ゼロサム2人ゲーム
- ゲーム理論で扱われるゲームの中で最も簡単かつ基礎的なもの。
- 2人のプレーヤーで争われ、一方の利得が他方の損失となる形のゲーム。

混合戦略

「絶対優位」「絶対劣位」「ナッシュ均衡」で戦略が定まらない同時進行ゲームで、
- さまざまな打ち手を混ぜて使う。
- 自分の動きをランダム化する戦略。

例えば、サッカーのペナルティ・キック

キッカーが左サイドを狙った時、キーパーが
・右に動けば成功率は高い
・左に動けば成功率は低い

キッカーが右サイドを狙った時、キーパーが
・右に動けば成功率は高い
・左に動けば成功率は低い

キーパーの動きをランダム化することによりシュート成功率を低めることができる。

ミニマックス定理
ゲーム理論の最も標準形となる“ゼロサム2人ゲーム”の主要定理。

マクシマックス原理にのっとった戦略
- ハイリスク、ハイリターンのイメージ
- 戦略案毎の「最良の結果」に注目し、最良中で最大の利得を与える戦略を選択する

ミニマックス原理にのっとった戦略
- ローリスク、ローリターンのイメージ
- 相手がマクシミン原理を採ることを前提としたもの。
- 戦略案毎の「最良の結果」に注目し、最良中で最小の利得を与える戦略を選択する
- それによって得られる利得を「ミニマックス値」と言う。

マクシミン原理にのっとった戦略
- ローリスク、ローリターンのイメージ
- 相手がミニマックス原理を採ることを前提としたもの。
- 戦略案毎の「最悪の結果」に注目し、最悪中の最大の利得を与える戦略を選択する。
- それによって得られる利得を「マクシミン値」と言う。

ゼロサム2人ゲームで混合戦略を許した場合、

双方のプレーヤーが戦略配分を合理的に行う限り、
（両者がともに合理的な行動、すなわち相手も十分に利口
であると考えて自己の損失を最小限にする手をとるならば）

両者が均衡する最適戦略が必ず存在する
（混合戦略の範囲内で両者のとるべき戦略は定まる）

ミニマックス値とマクシミン値が一致する点を「鞍点」
鞍点を持つならば純粋戦略で均衡点を見出すことができる。
鞍点が存在しない場合も混合戦略の組み合わせと確率をミニマックスで考えると、
両プレーヤーにとっての最適戦略（妥協点）が見つかる。

相手の手番で自分に大きな損害が出る or 自分の手番で相手に大きな利得が出る盤面を得る選択を見つけたら、
その選択（に辿り着く選択）を行わないので、探索を中断し計算回数を減らす（αβ法のα or βカット
- αカット：相手の手番で自分に大きな損害が出る盤面を得るに辿り着く選択以下を探索しない。
- βカット：自分の手番で相手に大きな利得が出る盤面を得る選択以下を探索しない。

↑

モンテカルロ法 †

19路盤でない9路盤でもコンピュータがアマチュア初段に勝つのは難しかった。
探索の計算量ではなく、ゲーム盤のスコアに問題があることが解ってきた。
スコアをプレイアウト（ランダムなブルートフォース、モンテカルロ法）に変更。
- スコア（ゲーム盤の状態）を情報を計算する方法。
- ただし、計算量が多いので19路盤では実行できなかった。

↑

用語 †

↑

エージェント †

行動する主体

↑

環境 †

エージェントが行動する場
エージェントからは未知
探索により経験して学習

↑

状態 †

環境中でエージェントが観測
エージェントの行動により変化

↑

行動 †

ある状態でエージェントがある行動をすると、確率的に別の状態へ遷移する。

↑

方策 †

上記の状態から行動を確率的に決定

方策の最適化には大きく方策ベースと価値ベースの2つがある
- 価値ベース：方策πを間接的に行動価値Qをモデル化した関数で最適化する手法
- 方策ベース：方策πを直接的にモデル化した関数をつくりコレを最適化する手法

↑

報酬 †

行動毎に報酬が得られる。
これを最大化するように学習
短期的にか？中長期的にか？（割引率による
累積報酬和 → 割引率を考慮 → 割引累積報酬和
方策によって割引（累積）報酬和が変化する。

↑

ポイント †

↑

解くべき問題 †

未知の環境に対する逐次的意思決定問題として
定型化（報酬を経験により推定）して解決を試みる。

将来の報酬を最大化するための、現在の行動の意思決定
行動に対する状態変化と報酬が未知の時、探索方法も考慮。

↑

難しさと対策 †

過去の状態⾏動の組み合わせが爆発
遅延報酬（前述の割引累積報酬和）

↑

詳細 †

↑

活用と探索のジレンマ（局所解に陥る） †

活用ばかり行うと、最適な行動を見つけ出すことができない可能性が高まり、
探素ばかり行うと、不要な行動ばかりを試してしまい時間がかかってしまう。

↑

活用と探索 †

活用（exploitation）：現在知っている情報の中から報酬が最大となるような行動を選ぶ
探索（exploration）：現在知っている情報以外の情報を獲得するために行動を選ぶ

↑

多腕バンディット問題 †

活用と探索のバランスをとるバンディットアルゴリズム

E-greedy方策（epsilon greedy policy）
- 基本的には活用をする、すなわち報酬が最大となる行動を選択するが、
- 一定確率をで探索をする、すなわちランダムな行動を選択する。

UCB方策（upper-confidence bound policy）

↑

マルコフモデル †

マルコフ性を仮定しマルコフ決定過程に従うモデル

↑

マルコフ性 †

ある時刻の状態は一つ前の時刻の状態と行動に依存して確率的に決定される。
現在の状態から将来の状態へ遷移する確率は、現在の状態のみに依存し、それ以前の状態には一切依存しない。

↑

マルコフ決定過程 †

報酬を最大化するための行動を時間ステップで行う。
強化学習の基礎（計算を簡素化する目的
マルコフモデルに従わない場合を扱う場合もある。

↑

探索の方法 †

↑

ランダム法 †

ランダムで探索を行う。

↑

クリーディ法 †

行動価値関数（Q値、Q関数とも）の値が最も大きい行動に決定（探索できない

↑

εクリーディ法 †

1-εの確率でクリーディ法（εの確率でランダム法）を選択してバランスを取る。

↑

ボルツマン選択 †

行動価値関数（Q値、Q関数とも）の値を考慮してクリーディ法、ランダム法を選択してバランスを取る。

↑

アルゴリズム †

モデル	学習方式	価値推定方式	方策オン/オフ	アルゴリズム
モデルベース	価値/方策ベース	―	―	DP法
モデルフリー	価値ベース	実績ベース	方策オン/オフ	MC法
モデルフリー	価値ベース	TD学習	方策オフ	Q学習
モデルフリー	価値ベース	TD学習	方策オン	Sarsa
モデルフリー	方策ベース	―	―	REINFORCE
モデルフリー	Actor-Critic	TD学習	―	A3C

https://twitter.com/ImAI_Eruel/status/1303677795806056451/photo/1

↑

価値ベース †

最適な方策を直接、見つけ出すのは困難な場合多いので、価値関数を最適化する方法。

マルコフモデルの場合、行動も報酬も再帰構造になる

↑

ベルマン方程式 †

強化学習の目的は、行動あるいは状態に対する報酬(価値関数)を最大化する方策を見つける事
しかしそれを見つけるためには、すべての状態にわたって報酬(価値関数)を計算する必要がある。
これを効率よく計算するために用いられるのがベルマン方程式
- ある状態sとその次の状態s'の報酬(価値関数)を関連付ける方程式
- なお、この方程式が成り立つ前提として、学習対象がマルコフ決定過程に従う必要がる。

↑

価値関数 †

状態価値関数
ある状態の時、ある方策に従って行動する事で、
将来に得る事が期待される割引報酬和を表す関数

行動価値関数（Q値、Q関数とも）
状態価値関数との違いは、初めに方策と無関係の行動をとるか否か。

最適行動価値関数（Q*）
最適方策が決められたときに定義される。
コレを獲得することが強化学習の目的だが、
- 最初は環境から得られる報酬を知らないので探索を考慮する。
- 探索を考慮するにはどのように方策を決定するか？

↑

Qテーブル †

価値関数の実装の一つ
（他の実装には線形関数、ニューラルネット等がある
状態、行動、報酬をマトリックスによって管理する。

↑

方策ベース †

直接最適方策を見つけ出そうというアプローチ

特に行動の選択肢が大量にあるような課題で価値算出する場合、
莫大な計算コストがかかって学習が行えない。と言う懸念あるため用いられる。

方策をあるパラメタで表された関数とし、
（累積報酬の期待値が最大となるように）
パラメタ学習することで、直接学習するアプローチ。

↑

TD法 †

モンテカルロの探索行為を効率的に行おうと報酬経験だけを頼りに
エピソードの終了まで待たずに状態価値関数や行動価値関数を更新する手法。

DP法とMC法の利点を掛け合わせた学習
- 動的計画法（DP法）
- モンテカルロ法（MC法）

TD誤差

自分が行動する前に思っていた行動の評価値と、
実際行動してみて評価したその行動の評価値との誤差

状態価値関数や行動価値関数のTD誤差がある。

TD誤差が０になるように学習する。

↑

学習手法 †

↑

Q学習 †

方策オフ型のTD学習。
方策に関係なく行動価値関数の最大値で行動価値関数を更新

応用手法も沢山、考えられており、
- DQN
- 優先度付き経験再生
- デュエリングネットワーク
- DoubleDQN
- Gorila
- Ape-X
- R2D2

などがある。

↑

Sarsa †

方策オン型のTD学習。
方策（実際の行動）に基づいたて行動価値関数を更新

↑

REINFORCE †

↑

Actor Critic系 †

また関数ベースおよび方策勾配ベースの考え方を組み合わせたというアプローチ

以下の要素から成っているのがその名前の由来。

行動を決めるActor（行動器）
方策（Criticの評価をもとに更新）をもとに行動を選択し、実行

方策を評価するCritic（評価器）
Actorが選択した行動の状態の変化と報酬を観測・TD誤差などで評価しActorに通知

応用手法も沢山、考えられており、
- A3C
- DDPG
- TRPO
- PPO
- ACER
- UNREAL
- NAC