画像認識
画像の認識では,主に入力から出力に向かう結合のみを持つ階層的なニューラルネットワーク,特に画像などの信号に内在する局所的な特徴が集まって,より大域的な特徴を構成するという構造を反映した,CNNがよく用いられる.一方,自然言語テキストや動画に代表される構造を持った系列情報を扱うためにRNNが用いられている.特にケプラー大学のゼップ・ホフレイターの提案した(ウ)は必要な文脈情報の長さを適応的に制御することで,時間を遡る誤差逆伝播の可能性を向上させ,画像からの説明文の生成や機械翻訳など,多くの課題に適用されている.実際,2016 年秋に,google 社は google 翻訳にLSTMを取り入れてアップデートし,非常に高精度な翻訳を提供することが可能になった.
CNN
cnnとは、Convolutional Neural Networkの略で、日本語では畳み込みニューラルネットワークと言います。「畳み込み層」では、画像の特徴を抽出します。具体的には、特徴を抽出する際、画像のどこを特徴として抽出するかを学習する層です。
生物の視覚野を模した多層構造のモデルのこと。 「畳み込みニューラルネットワーク」とも呼ばれる。
ニューロンの一部の領域を絞って、中間層に畳み込み層、プーリング層、全結合層を何層も加え、各層の間に誤差逆伝播法を取り入れることで画像に対して高いパターン認識能力を実現した。
一般的にディープラーニングという場合、CNN(Convolution Neural Network)を指す場合が多い。
RNN
Recurrent Neural Network(リカレントニューラルネットワーク)の略称で、再帰型ニューラルネットワークとも呼ばれます。ディープラーニング(Deep Learning)の一つで、音声や動画データを扱えるようにするための構造をもつアルゴリズムのことです。
例えば、文章やメール作成画面等に使われている言葉の予測機能が挙げられます。仮に「いつも」という言葉を入力したとすると、予測で「ありがとうございます」や「お世話になります」などが出るとします。この現象は、使用者が「いつも」の次には「ありがとう」や「お世話になります」という言葉が続く順番でよく使用している!と、コンピュータが学習しているため、予測の言葉として、こうした表示が可能となっているのです。
LSTM
LSTM(Long Short-Term Memory)とは、RNNの欠点を解消し、長期の時系列データを学習できるように改良されたモデル。
short-term memory(短期記憶)を長期に渡って活用することを可能にした。
昨今、自然言語処理分野で大きな成果が得られている。