ニューラルネットワーク
ニューラルネットワークは高い表現力を持つ反面,過学習をしやすいという性質を持つため,それを改善させる方法が多数考案されている.例えば,学習の際に一部のノードを無効化するドロップアウト,一部の層の出力を正規化するバッチ正規化,データの水増しをしてデータの不足を補うデータ拡張,パラメータのノルムにペナルティを課すL2正則化などがそれに当たる.
L2正則化
機械学習モデルは未知データへの予測精度を高めるために訓練データを学習します。
機械学習モデルが訓練データを過剰に学習すると未知データへの予測精度が落ちることがあります。
これはモデルが訓練データに対して過剰に学習したため、はずれ値やノイズまで学習してしまったと考えることができます。
このような現象を過学習、またはoverfittingと呼びます。
過学習が起きる原因としてデータ数が少ない、変数が多い、パラメータが大きすぎるといったことがあります。
正則化の種類と目的 L1正則化 L2正則化について | AVILEN AI Trend
ニューラルネットワークも多くの機械学習アルゴリズムと同様に過学習という問題に陥ります。 今回はこの過学習を回避するための手法の一つ、正則化について説明します。 正則化手法としてL1正則化、L2正則化について解説します。これらの正則化手法はリ...
多くの場面でL1正則化は余分な説明変数を省くことを目的とした手法です。余分な説明変数を省くことを次元圧縮と呼びますが、L1正則化は次元圧縮のために用いられます。
これはL1正則化を用いた学習ではパラメータwiが0になりやすいためです。パラメータwiが0とされた説明変数は目的変数に対して無関係であることを意味します。
一方でL2正則化はモデルの過学習を防ぐことで精度を高めるために用いられます。結果としてL1正則化を使ったモデルよりも予測精度が高い傾向にあります。
これはL2正則化を用いたモデルのパラメータの方がより滑らかで表現力に優れているためであると説明できます。