方策をあるパラメタで表される関数とし、そのパラメタを学習することで、直接方策を学習していくアプローチ。
方策勾配法とは, ある状態と行動のもっともらしさ(確率)を, 価値関数でガイドしながら修正していくこと。
![](https://i0.wp.com/qiita-user-contents.imgix.net/https%3A%2F%2Fcdn.qiita.com%2Fassets%2Fpublic%2Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png?resize=160%2C90&ssl=1)
深層強化学習アルゴリズムまとめ - Qiita
はじめに深層強化学習の分野では日進月歩で新たなアルゴリズムが提案されています.それらを学ぶ上で基礎となるアルゴリズム(というより概念に近い?)はQ学習, SARSA, 方策勾配法, Actor-…
直感的な方策勾配法の理解(「方策勾配」と「方策反復&価値反復」の関係) - Interpretations
強化学習では, 方策勾配による学習方法が主流であるが, 方策勾配とは何か?? 自分のイメージを文章化してみました. 長くなりますが, 言いたいこととしては, 「方策勾配法とは, ある状態と行動のもっともらしさ(確率)を, 価値関数でガイドし...