私たちの住む現実世界では、情報は様々なモーダル情報で表現されています。例えばYoutubeのような動画の場合でも、動画、テキスト、音声、再生回数、投稿日…など様々なデータで構成されています。
人間はこれら複数のモーダル情報を 五感から取り入れることで、単一のモーダル情報よりも確実で抽象度の高い情報処理うことができます。これらを模倣して機械学習においても同様に複数種類のデータから学習して、統合的に処理をしようというのがマルチモーダル学習になります。
ルチメディア・インタフェースは単にメディア(音、映像、触覚など)が複数になっているときを表すのに対し、それぞれのメディアがいろいろな形態で使われ、情報伝達を行っているときにマルチモーダル・インタフェースと呼ぶ。例えば、同じ音でも言葉としての音声、韻律、擬態語、摩擦音や落下音のように分類するとモーダリティを考えることができる。あるいは人差指を伸ばした動作の映像は、1という数字、物体の指示、口にあてて静かにという命令、など数種類のメッセージを手の同じ映像というメディアから伝達するときにマルチモーダルだということができる。
「モーダル」という言葉はAIへの入力情報の種類(画像、音声、テキストなど)を意味し、「マルチモーダル」AIとは、様々な種類の入力情報を利用するAIのことを指します(※)。前述の例でいえば、相手の表情と言葉から感情を分析するようなAIは、映像と音声のモーダルを利用したマルチモーダルAIと言えます。他にも、見た目・匂い・味からワインを選んだり、画像と音とで機器の異常を検知したり、気候データと衛星画像で天候を予測したりといった様々な場面でマルチモーダルAIの適用が考えられます。