CONCEPT · STUB

マルチモーダル LLM(Multimodal LLM)

テキストだけでなく、画像・音声・動画など複数のモダリティ（情報様式）を入力として扱える大規模言語モデル（LLM）の総称。従来のテキスト専用 LLM に対して、視覚エンコーダや音声エンコーダを統合することで、写真の説明・音声の書き起こし・動画の要約といったタスクを単一モデルで処理できる。

2024年以降のフロンティアモデルでは、マルチモーダル対応が事実上の標準機能となっており、GPT-4o・Gemini 1.5・Claude 3・Gemma 4 などが代表例として挙げられる。2026年には edge 向けの軽量マルチモーダルモデル（Gemma 3n・Nemotron Nano Omni など）が登場し、クラウドなしのオンデバイス推論でも4モダリティを処理できる段階に達している。

言及された記事

COMPARE · 2026-05-07

エッジ向けオムニモデルの現在地 2026 — Gemma 3n / Nemotron Nano Omni / Granite 4.1 を用途別に比較する

DEEPDIVE · 2026-05-14

マルチモーダル LLM(Multimodal LLM)

言及された記事

エッジ向けオムニモデルの現在地 2026 — Gemma 3n / Nemotron Nano Omni / Granite 4.1 を用途別に比較する

マルチモーダル LLM は「必須インフラ」へ — 2026 年の国内採用動向と native multimodal 設計の台頭