深層学習によく用いられるデータセット

MNIST
ImageNet
Youtube-8M
CIFAR-100

MNIST

MNIST(Mixed National Institute of Standards and Technology database)とは、手書き数字画像60,000枚と、テスト画像10,000枚を集めた、画像データセットです。さらに、手書きの数字「0〜9」に正解ラベルが与えられるデータセットでもあり、画像分類問題で人気の高いデータセットです。

MNISTは深層学習(ディープラーニング)の手法の１つであるニューラルネットワークを学ぶ上でも便利ですし、機械学習の入門のデータセットとしてもよく使われています。

手軽に入手できる点も含めて、人工知能(AI)の勉強を始める入り口としてMNISTは人気の高いデータセットです。

太陽の末裔観るなら＜U-NEXT＞

MNISTのデータセットは、手書きで書かれた数字が画像になった画像データと、その画像に書かれた数字の正解となるラベルデータで構成されています。そして、画像データとラベルデータのペアは学習用に60,000個、検証用に10,000個あります。

こんなに簡単！店舗向けホームページがすぐ始められる「グーペ」

機械学習で便利な画像データセット「MNIST」を丁寧に解説！｜Udemy メディア

手軽に入手できて初心者でも使いやすい、人工知能や機械学習のサンプルデータとして利用されるMNIST（エムニスト）。ダウンロードの方法やTensorflowやKeras、Chainerでの取得方法まで紹介します。

MNIST：手書き数字の画像データセット

データセット「MNIST」について説明。7万枚の手書き数字の「画像＋ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。scikit-learn、Keras／tf.keras、TensorFlow、PyTo...

MNIST データの仕様を理解しよう

ImageNet

ImageNetとはスタンフォード大学がインターネット上から画像を集め分類したデータセット。一般画像認識用に用いられる。ImageNetを利用して画像検出・識別精度を競うThe ImageNet Large Scale Visual Recognition Challenge（ILSVRC）などコンテストも開かれる。（：AI白書より引用）

ImageNetは,
1,400万枚を超える画像,画像に写っている物体名（クラス名）を付与,物体名（クラス名）は2万種類以上
を収録したデータベースです。ImageNet登場以前にも画像認識用データセットとして

MNIST: 手書き数字(0-9)画像を数十万枚収録
CIFAR-10: 飛行機、鳥など10クラスの画像を数万枚収録

がありましたがImageNetはクラス／画像数共に桁違いに大きいデータセットです。

また、クラス名はWordNetという概念辞書の用語を使っておりWordNetを参照することで上位語、下位語（「ダルメシアン」の上位語は「犬」など）なども考慮できるのも大きな特徴だと思います。

ImageNet（ILSVRC2012）データセット | 有意に無意味な話

機械学習は「アルゴリズムの進化」と「データセットの進化」の両輪が揃って初めて進化すると言われています。ここではDeep Learning躍進の一翼を担った「大規模かつ良質なデータセット」の代名詞である「ImageNetデータセット」「ILS...

用語集　Ｇ検定対策

Want to see how an AI trained on ImageNet will classify you? Try ImageNet Roulette, based on ImageNet's Person classes. It's part of the 'Training Humans' exhibition by @trevorpaglen & me – on the history & politics of training sets. Full project out soonhttps://t.co/XWaVxx8DMC pic.twitter.com/paAywgpEo4

— Kate Crawford (@katecrawford) September 16, 2019

Youtube-8M

YouTube-8M Segmentsデータセットは、YouTube-8Mデータセットを拡張したもので、人間が検証したセグメントアノテーションを付加したものである。動画へのアノテーションに加えて、動画中のエンティティの時間的な局所化、つまりエンティティの発生時期の特定を行いたいと考えています。

YouTube-8Mデータセットの検証セットから、1000クラス、約237Kのセグメントに対して、人間が検証したラベルを収集しました。各動画には、時間的にローカライズされたフレームレベルの特徴が再び含まれているので、セグメントレベルの粒度で分類器の予測を行うことができます。私たちは、研究者がトレーニングセット内の大量のノイズの多いビデオレベルのラベルを利用して、時間局在化のためのモデルを訓練することを奨励しています。

私たちは、ICCV 2019でKaggle ChallengeとThe 3rd Workshop on YouTube-8M Large-Scale Video Understandingを開催しています。

YouTube-8M: A Large and Diverse Labeled Video Dataset for Video Understanding Research

Announcing YouTube-8M: A Large and Diverse Labeled Video Dataset for Video Understanding Research – https://t.co/kxLUxGpLxU pic.twitter.com/J6n6TyIwLb

— Google AI (@GoogleAI) September 28, 2016

CIFAR-100

CIFAR-10データセットは、10クラス60000枚の32×32カラー画像で構成されており、クラスごとに6000枚の画像があります。トレーニング画像は50000枚、テスト画像は10000枚です。

データセットは、5つの学習バッチと1つのテストバッチに分割され、それぞれ10000枚の画像が含まれています。テストバッチには、各クラスからランダムに選択された1000枚の画像が含まれています。学習バッチには、残りの画像がランダムな順序で含まれていますが、学習バッチによっては、あるクラスの画像が他のクラスの画像よりも多く含まれている場合があります。トレーニングバッチには、各クラスの画像が5000枚ずつ正確に含まれています。

多層パーセプトロンについて