AI 方策勾配法 方策をあるパラメタで表される関数とし、そのパラメタを学習することで、直接方策を学習していくアプローチ。 方策勾配法とは, ある状態と行動のもっともらしさ(確率)を, 価値関数でガイドしながら修正していくこと。 2021.02.06 AIG検定