Nグラム法とは
Nグラム法とは自然言語(テキスト)を連続するN個の文字、もしくはN個の単語単位で単語を切り出す手法のことです。
N=1のときユニグラム(unigram), N=2のときバイグラム(bigram), N=3のときトライグラム(trigram)と呼ばれます。
ここから文字と単語それぞれのN-gramについて具体的な例をあげて紹介してみます。
任意の文字列や文書を連続したn個の文字で分割するテキスト分割方法.特に,nが1の場合をユニグラム(uni-gram),2の場合をバイグラム(bi-gram),3の場合をトライグラム(tri-gram)と呼ぶ.


