MLLM — Çok-Modlu LLM | AI Mevzuları

MLLM, geleneksel bir LLM'in üzerine görsel, ses ya da video gibi modaliteleri ekleyen büyük dil modelidir. Tipik mimari, modaliteyi bir kodlayıcıyla Embedding'e çevirip dil modeline projeksiyon yaparak besler; metin tarafıyla aynı Token uzayında akıl yürütür. GPT-4o, Claude Sonnet 3.5+, Gemini 1.5/2 ve LLaVA gibi açık modeller bu kategorinin önde gelen örnekleridir. VLM daha dar bir alt küme olarak yalnızca görü+dil odaklıdır; MLLM şemsiyesi ses ve video gibi modaliteleri de kapsar.