機械学習の基礎

機械学習

機械学習の基礎

機械学習の手法は、大きく分けて、教師データを用いて学習を行う教師あり学習
教師データを用いずにデータを持つ本質的な構造を抽出する教師なしデータ、収益を最大化する方策を獲得する強化学習があります。

教師あり学習

教師データ(入力とそれに対応する正解ラベルの組)を使って予測値を正解ラベルに近づけることを目標に学習を行う手法です。

教師あり学習は、入力データに対応する実数の出力値を近似(予測)する回帰と、入力がどのクラスに属するかを判定する分類に大別されます。
例えば、回帰の代表的な手法として線形回帰、分類の代表的な手法としてサポートベクターマシンが挙げられます。

教師なし学習

教師データを使わずに、データの本質的な構造を浮かびあがらせる手法です。

教師なし学習には、データの本質的な構造(たとえば似た性質を持つデータのまとまり)を浮かび上がらせるクラスタリングや、情報をなるべく失わないようにデータを圧縮する次元削除などがある。
クラスタリングの手法としては、例えば、ロジスティク回帰などがあり、次元削除の手法としては、例えば主成分分析などがあります。

強化学習

収益(報酬の和)を最大化する方策を獲得することを目的とした手法です。
強化学習において、エージェント(プレイヤー)の目的は収益を最大化する方策を獲得することです。
エージェントが行動を選択すると状態が変化します。その状態で再び最良の行動を選択する行為を繰り返すことで、エージェントは方策を獲得します。

強化学習で扱う対象は、動的計画法などのバッチ処理的な最適化法を確定システムというのに対し、不確実性があることを前提としている為、確率システムと呼ばれます。

強化学習で扱う対象はマルコフ決定過程(Markov decision process; MDP)といい、以下の条件の中で学習していく方法です。

・環境は状態を持ち、それは完全に正確に観測可能であること。
・エージェントが行動を行うと、環境が確率的に状態遷移し、環境から確率的に報酬が得られる。その遷移確率と報酬が得られる確率は事前には与えられず、学習過程で学習していくこと。
・報酬の指数移動平均を最大化するように行動すること。
※環境が完全・正確には観測可能でない場合は、部分観測マルコフ決定過程 (POMDP) といいます。
引用元↓

強化学習 | AI研究所
今回は強化学習について詳しく解説していきます。未知の情報に対しても人間のように自力で解決する方法として、エージェントが行動を選択することで環境から報酬を得るという考え方を用い、この報酬を最大限に得られる方策を学習することを強化学習と呼びます...

強化学習とは、試行錯誤を通じて「価値を最大化するような行動」を学習するものです。
教師付き学習とよく似た問題設定ですが、与えられた正解の出力をそのまま学習すれば良いわけではなく、もっと広い意味での「価値」を最大化する行動を学習しなければなりません。
例えば、株の売買により利益を得る問題が強化学習にあたります。
この場合、持っている株をすべて売り出せば確かにその時点では最もキャッシュを得ることができますが、より長期的な意味での価値を最大化するには、株をもう少し手元に置いておいたほうが良いかもしれません。
他にも、テトリスでできるだけ高スコアを得るような問題も強化学習の枠組みで考えることができます。
その時点で一番スコアが高くなるのは、一列でもすぐに消すようなプレイ方法ですが、より長期的には、できるだけ溜めてから一度にたくさんの列を消したほうがスコアが高くなります。
引用元↓

強化学習入門 ~これから強化学習を学びたい人のための基礎知識~ - Platinum Data Blog by BrainPad
本記事は、当社オウンドメディア「Doors」に移転しました。約5秒後に自動的にリダイレクトします。 // 新URLを作成 var domain = ""; // 新ドメイン(最後のスラッシュは不要です) var path = locatio...
タイトルとURLをコピーしました