AI 脳 ai-know.
JA · EN
CONCEPT · STUB

マルチモーダル LLM(Multimodal LLM)

テキストだけでなく、画像・音声・動画など複数のモダリティ(情報様式)を入力として扱える大規模言語モデル(LLM)の総称。従来のテキスト専用 LLM に対して、視覚エンコーダや音声エンコーダを統合することで、写真の説明・音声の書き起こし・動画の要約といったタスクを単一モデルで処理できる。

2024年以降のフロンティアモデルでは、マルチモーダル対応が事実上の標準機能となっており、GPT-4o・Gemini 1.5・Claude 3・Gemma 4 などが代表例として挙げられる。2026年には edge 向けの軽量マルチモーダルモデル(Gemma 3n・Nemotron Nano Omni など)が登場し、クラウドなしのオンデバイス推論でも4モダリティを処理できる段階に達している。

言及された記事