ディープラーニングを含めて機械学習において精度の高い学習をするために

AI
スポンサーリンク

ディープラーニングを含めて機械学習において精度の高い学習をするために

ディープラーニングを含めて機械学習において精度の高い学習をするためには,観測データの適切な前処理が必須である.異なるスケールの特徴量を同時に扱えるようにするために,平均を 0 に分散を 1 に規格化する標準化や,特徴量の線形結合からデータ内の分散が大きくなるような特徴量を得る主成分分析(PCA)などは広く利用されている.また,画像処理の分野においては,減算正規化と除算正規化の処理を行う局所コントラスト正規化などが前処理として利用され,OpenCVなどの画像処理に特化したライブラリで行うことができる.また,自然言語処理の分野においては,文章に単語が含まれているかどうかを考えてテキストデータを数値化するbag-of-wordsや文章に含まれる単語の重要度を特徴量とするTF-IDFなどがある.

局所コントラスト正規化

 

theanoで局所コントラスト正規化(Local Contrast Normalization)を使う - 備忘録とか日常とか
Deep Learning Tutorial で theanoによる実装,アルゴリズムを勉強中。 研究では主にCNNをtheanoを使っているが、正規化層による効果はどんなものか試してみたくなったので実装する。theanoはあくまで数値計算ライブラリなので、はじめから正規化のための関数が用意されているわけではない。その...

 

 

OpenCV

画像処理・画像解析および機械学習等の機能を持つC/C++、Java、Python、MATLAB用ライブラリ。プラットフォームとしてmacOSやFreeBSD等全てのPOSIXに準拠したUnix系OS、Linux、Windows、Android、iOS等をサポートしている。

OpenCV
Open Computer Vision Library

bag-of-words

 

ある文書における単語の出現回数を数えるアルゴリズムです。単語数を数えることにより、複数の文書を比較したり類似性を測定することができるため、検索、文書の分類、トピックモデリングなどのアプリケーションに役立てることができます。BoWは、ディープラーニングネットワークの入力テキストを準備するための一手段です。

TensorFlow の概要
TensorFlow を利用すると、パソコン、モバイル、ウェブ、およびクラウドで使える機械学習モデルを、エキスパートはもちろん初心者でも簡単に作成できます。

 

TF-IDF

 

tf-idfは、文書中に含まれる単語の重要度を評価する手法の1つであり、主に情報検索やトピック分析などの分野で用いられている。

tf-idfは、tf(英: Term Frequency、単語の出現頻度)とidf(英: Inverse Document Frequency、逆文書頻度)の二つの指標に基づいて計算される。

タイトルとURLをコピーしました