マルチモーダルとは？

私たちの住む現実世界では、情報は様々なモーダル情報で表現されています。例えばYoutubeのような動画の場合でも、動画、テキスト、音声、再生回数、投稿日…など様々なデータで構成されています。

人間はこれら複数のモーダル情報を五感から取り入れることで、単一のモーダル情報よりも確実で抽象度の高い情報処理うことができます。これらを模倣して機械学習においても同様に複数種類のデータから学習して、統合的に処理をしようというのがマルチモーダル学習になります。

深層学習×マルチモーダル。マルチモーダル学習で未来が広がる

深層学習×マルチモーダル。マルチモーダル学習で未来が広がる

3つの要点✔️ AIは人間における1つのモーダルに特化した研究が多い✔️ マルチモーダルに拡張することでさらなる進化の可能性がある ✔️ まだまだ発展の余地があるはじめに最近のディープラーニングの１つのトレンドは、画像認識の分野においてはC...

ルチメディア・インタフェースは単にメディア(音、映像、触覚など)が複数になっているときを表すのに対し、それぞれのメディアがいろいろな形態で使われ、情報伝達を行っているときにマルチモーダル・インタフェースと呼ぶ。例えば、同じ音でも言葉としての音声、韻律、擬態語、摩擦音や落下音のように分類するとモーダリティを考えることができる。あるいは人差指を伸ばした動作の映像は、1という数字、物体の指示、口にあてて静かにという命令、など数種類のメッセージを手の同じ映像というメディアから伝達するときにマルチモーダルだということができる。

マルチモーダル

https://www.jiten.com/dicmi/docs/k31/22959s.htm

「モーダル」という言葉はAIへの入力情報の種類（画像、音声、テキストなど）を意味し、「マルチモーダル」AIとは、様々な種類の入力情報を利用するAIのことを指します（※）。前述の例でいえば、相手の表情と言葉から感情を分析するようなAIは、映像と音声のモーダルを利用したマルチモーダルAIと言えます。他にも、見た目・匂い・味からワインを選んだり、画像と音とで機器の異常を検知したり、気候データと衛星画像で天候を予測したりといった様々な場面でマルチモーダルAIの適用が考えられます。

マルチモーダルAI技術が拓く未来