REINFORCEMENT LEARNING
•三位大神的加持
–Hinton、Bengio、LeCun在Nature上發表的 Deep
Learning綜述一文最後也將 Deep Reinforcement
Learning 作為未來 Deep Learning 的發展方向
–AlphaGo横空出世,將進一步推動 Deep Reinforcement
Learning的發展
8
遊戲說明
•遊戲:CartPole-v0
•種類:經典遊戲
•Obs features:
•Actions:
25
•Episode termination:
•Pole Angle is more than ±12°
•Cart Position is more than ±2.4
(center of the cart reaches the
edge of the display)
•Episode length is greater than
200
價值函數
VALUE FUNCTION
•實際上,除非整個過程結束,否則我們無法獲取所有回饋組合,
來計算每個狀態的回饋
•因此,引入一個概念,價值函數 Value Function,用來表示一
個狀態未來的潛在價值
•狀態價值函數
43
vπ(s) 表示在狀態 s 底下的策略 π 所表示出的狀態 (狀態價值函數 ),我們從狀態 s
依據策略 π 進行決策所會獲得的價值的期望 E
價值函數
VALUE FUNCTION
•動作價值函數
•價值函數 vπ(s) 我們將Gt 進行展開,展開到最後
44