機械学習の手法の一つです。分析の基準や正解を与えず、学習対象のデータだけを与えることで、データの持つ規則性や傾向をコンピューター自身に発見させる。規則性や傾向の発見には、入力されたデータを特徴量ごとにクラスタリングする方法が使われます。
データが持つ本質や構造を抽出したいときに有効で、膨大なデータから自動で相関関係やパターンを見つけ出せるため、学術研究やデータマイニングでの利用が期待されている。デメリットとしては、学習内容をコンピューターに任せるため学習の制御が難しく、与えるデータの質やクラスタリングに使うアルゴリズムによって分析精度が落ちやすいことが挙げられます。
教師なし学習とは、機械学習の手法の一つです。「出力すべきもの」があらかじめ決まっていないという点で教師あり学習とは大きく異なる。データの背後に存在する本質的な構造を抽出するために用いられる。
教師あり学習は、その「出力すべきもの」も入力として与える手法であり、データの背後に存在する本質的な構造を抽出するよりむしろ、思い通りの出力を再現する機械の構成に用いられる。
具体的な例として以下のようなものがある。
クラスター分析
主成分分析
ベクトル量子化
自己組織化マップ
「教師なし学習」は、正解のないデータで機械学習を行うことです。正解がない予測や分析、解析等の分野で使われたり、膨大なデータの中からコンピュータ自身に何かを発見させたり、膨大な訓練データを繰り返して学習させたりする際などに用いられます。
教師なし学習はコンピュータに画像や音声、数値など膨大なデータを読み込ませて、特徴量を求め、それに従ってパターンやカテゴリーに自動分類したり、クラスター分析、規則性や相関性、特徴、特異性、傾向等を解析させたりします(主成分分析、ベクトル量子化/標本化サンプリング等)。
また、データマイニングなど、未知のデータの特徴を発見したり予測したりする分野では、必然的に教師なし学習の手法をとるケースが多くなります。
なお、教師なし学習を行う場合でも、最適と思われる初期値を与えて学習をはじめた方が効率的と言われています。
「教師あり学習」には「正解ラベル」という答えが存在するのに対し、「教師なし学習」は「正解ラベル」がありません。
教師なし学習では、入力データのみがあり、ペアとなる正解のデータは存在しません。
ゴールは、データに対する理解を深めるためにデータの基本的な構造や分布をモデル化することです。
教師なし学習は、ラベル付けされた応答がない入力データを使って推論を行うタイプの機械学習のアルゴリズムです。
最も一般的な教師なし学習の手法は、クラスター分析です。これは、データ内の隠れたパターンやグループ化を発見する探索的データ解析に使用されます。クラスターは、ユークリッド距離や確率的な距離などの指標に基づいて定義される類似度の尺度を使ってモデル化されます。
一般的なクラスタリング アルゴリズムには次のようなものがあります。
階層クラスタリング: クラスターツリーを作成して複数のレベルをもつ階層的なクラスター群を構築します。
k 平均法クラスタリング: クラスターの重心までの距離に基づいてデータを k 個の異なるクラスターに分割します。
混合ガウスモデル: 多変量正規密度コンポーネントの混合としてクラスターをモデル化します。
自己組織化マップ: データのトポロジーと分布を学習するニューラルネットワークを使用します。
隠れマルコフモデル: 状態の系列を観測データから復元するために利用します。
機械学習の手法の一つ。データから共通する特徴を持つグループを見つけたり、データを特徴づける情報を抽出したりする手法です。