ディープラーニングを含めて機械学習において精度の高い学習をするために
ディープラーニングを含めて機械学習において精度の高い学習をするためには,観測データの適切な前処理が必須である.異なるスケールの特徴量を同時に扱えるようにするために,平均を 0 に分散を 1 に規格化する標準化や,特徴量の線形結合からデータ内の分散が大きくなるような特徴量を得る主成分分析(PCA)などは広く利用されている.また,画像処理の分野においては,減算正規化と除算正規化の処理を行う局所コントラスト正規化などが前処理として利用され,OpenCVなどの画像処理に特化したライブラリで行うことができる.また,自然言語処理の分野においては,文章に単語が含まれているかどうかを考えてテキストデータを数値化するbag-of-wordsや文章に含まれる単語の重要度を特徴量とするTF-IDFなどがある.
局所コントラスト正規化
OpenCV
画像処理・画像解析および機械学習等の機能を持つC/C++、Java、Python、MATLAB用ライブラリ。プラットフォームとしてmacOSやFreeBSD等全てのPOSIXに準拠したUnix系OS、Linux、Windows、Android、iOS等をサポートしている。
bag-of-words
ある文書における単語の出現回数を数えるアルゴリズムです。単語数を数えることにより、複数の文書を比較したり類似性を測定することができるため、検索、文書の分類、トピックモデリングなどのアプリケーションに役立てることができます。BoWは、ディープラーニングネットワークの入力テキストを準備するための一手段です。
TF-IDF
tf-idfは、文書中に含まれる単語の重要度を評価する手法の1つであり、主に情報検索やトピック分析などの分野で用いられている。
tf-idfは、tf(英: Term Frequency、単語の出現頻度)とidf(英: Inverse Document Frequency、逆文書頻度)の二つの指標に基づいて計算される。