深層学習によく用いられるデータセット
MNIST
MNIST(Mixed National Institute of Standards and Technology database)とは、手書き数字画像60,000枚と、テスト画像10,000枚を集めた、画像データセットです。さらに、手書きの数字「0〜9」に正解ラベルが与えられるデータセットでもあり、画像分類問題で人気の高いデータセットです。
MNISTは深層学習(ディープラーニング)の手法の1つであるニューラルネットワークを学ぶ上でも便利ですし、機械学習の入門のデータセットとしてもよく使われています。
手軽に入手できる点も含めて、人工知能(AI)の勉強を始める入り口としてMNISTは人気の高いデータセットです。
MNISTのデータセットは、手書きで書かれた数字が画像になった画像データと、その画像に書かれた数字の正解となるラベルデータで構成されています。そして、画像データとラベルデータのペアは学習用に60,000個、検証用に10,000個あります。
こんなに簡単!店舗向けホームページがすぐ始められる「グーペ」
ImageNet
ImageNetとはスタンフォード大学がインターネット上から画像を集め分類したデータセット。一般画像認識用に用いられる。ImageNetを利用して画像検出・識別精度を競うThe ImageNet Large Scale Visual Recognition Challenge(ILSVRC)などコンテストも開かれる。(:AI白書より引用)
ImageNetは,
1,400万枚を超える画像,画像に写っている物体名(クラス名)を付与,物体名(クラス名)は2万種類以上
を収録したデータベースです。ImageNet登場以前にも画像認識用データセットとして
MNIST: 手書き数字(0-9)画像を数十万枚収録
CIFAR-10: 飛行機、鳥など10クラスの画像を数万枚収録
がありましたがImageNetはクラス/画像数共に桁違いに大きいデータセットです。
また、クラス名はWordNetという概念辞書の用語を使っておりWordNetを参照することで上位語、下位語(「ダルメシアン」の上位語は「犬」など)なども考慮できるのも大きな特徴だと思います。
Want to see how an AI trained on ImageNet will classify you? Try ImageNet Roulette, based on ImageNet's Person classes. It's part of the 'Training Humans' exhibition by @trevorpaglen & me – on the history & politics of training sets. Full project out soonhttps://t.co/XWaVxx8DMC pic.twitter.com/paAywgpEo4
— Kate Crawford (@katecrawford) September 16, 2019
Youtube-8M
YouTube-8M Segmentsデータセットは、YouTube-8Mデータセットを拡張したもので、人間が検証したセグメントアノテーションを付加したものである。動画へのアノテーションに加えて、動画中のエンティティの時間的な局所化、つまりエンティティの発生時期の特定を行いたいと考えています。
YouTube-8Mデータセットの検証セットから、1000クラス、約237Kのセグメントに対して、人間が検証したラベルを収集しました。各動画には、時間的にローカライズされたフレームレベルの特徴が再び含まれているので、セグメントレベルの粒度で分類器の予測を行うことができます。私たちは、研究者がトレーニングセット内の大量のノイズの多いビデオレベルのラベルを利用して、時間局在化のためのモデルを訓練することを奨励しています。
私たちは、ICCV 2019でKaggle ChallengeとThe 3rd Workshop on YouTube-8M Large-Scale Video Understandingを開催しています。
Announcing YouTube-8M: A Large and Diverse Labeled Video Dataset for Video Understanding Research – https://t.co/kxLUxGpLxU pic.twitter.com/J6n6TyIwLb
— Google AI (@GoogleAI) September 28, 2016
CIFAR-100
CIFAR-10データセットは、10クラス60000枚の32×32カラー画像で構成されており、クラスごとに6000枚の画像があります。トレーニング画像は50000枚、テスト画像は10000枚です。
データセットは、5つの学習バッチと1つのテストバッチに分割され、それぞれ10000枚の画像が含まれています。テストバッチには、各クラスからランダムに選択された1000枚の画像が含まれています。学習バッチには、残りの画像がランダムな順序で含まれていますが、学習バッチによっては、あるクラスの画像が他のクラスの画像よりも多く含まれている場合があります。トレーニングバッチには、各クラスの画像が5000枚ずつ正確に含まれています。