強化学習
機械が試行錯誤することで,取るべき最善の行動を決定する問題を扱うことができる学習方法を強化学習という.強化学習はボードゲームや自動運転,またロボットの歩行動作などに活用されている.代表的なアルゴリズムに Q学習があげられる.強化学習の課題として,主に学習時間やマルチエージェント応用などが挙げられる.理論的には無限に学習するが,実世界では全てが限られている.ロボットの場合,無限の試行を繰り返すことができず,損耗し,実験の続行が困難になる.そこで人間側がタスクを上手く切り分けてやさしいタスクからの学習をすることが期待される.またマルチエージェント応用に関して,例として,2 体のロボット同士で学習を開始させようとすると,お互いに初期状態であるタスクについての何も知識がない状態だと,学習過程の不安定化が見られる.現在はこれに対応するために逆強化学習やディープラーニングの技術を適用したDQNなどが適用され始めている.
Q学習
Q学習は機械学習手法の方策オフ型TD学習の一つである。概念自体は古くから存在するが、Q学習(Q-learning)という名前で今日の手法がまとめられたのは、1989年のクリス・ワトキンズ(Chris Watkins)の論文に端を発する。
Q学習は有限マルコフ決定過程において全ての状態が十分にサンプリングできるようなエピソードを無限回試行した場合、最適な評価値に収束することが理論的に証明されている。実際の問題に対してこの条件を満たすことは困難ではあるが、この証明はQ学習の有効性を示す要素の一つとして挙げられる。
マルチエージェント応用
マルチエージェントシステムとは、その名の通り複数のエージェントから成るシステムです。マルチエージェントシステムでは、各エージェントは他のエージェントや環境と通信しながら動作を行います。エージェント同士が協調することで、単一のエージェントでは達成できない事柄をシステム全体として達成できます。このマルチエージェントシステムをコンピュータ上でシミュレーションするものをマルチエージェントシミュレーションと呼びます。
逆強化学習
逆強化学習 (Inverse Reinforcement Learning; IRL) が注目されている。強化学習は、問題と報酬(の条件)があたえらたときに、報酬を最大化する行動方策を学習する問題だが、逆強化学習は問題と報酬を最大化する行動方策が与えられたときに報酬(の条件)を推定する。この方法を発展させることで、熟練者の行動サンプルを元に問題を解くのに適した行動方策を学習する師弟学習などに繋がってゆく
DQN
DQNとは、Deep Q-Networkの略です。Q学習ではQ値を学習し、Qテーブルを完成させることに重きが置かれていましたが、DQNではQ学習にニューラルネットワークの考え方を含めています。
最適行動価値関数を、ニューラルネットを使った近似関数で求め、ある状態_ のときに、行動 ごとのQ値を推定できれば、一番いいQ値の行動=取るべき最善の行動がわかるという仕組みです。