MLLM, geleneksel bir LLM'in üzerine görsel, ses ya da video gibi modaliteleri ekleyen büyük dil modelidir. Tipik mimari, modaliteyi bir kodlayıcıyla Embedding'e çevirip dil modeline projeksiyon yaparak besler; metin tarafıyla aynı Token uzayında akıl yürütür. GPT-4o, Claude Sonnet 3.5+, Gemini 1.5/2 ve LLaVA gibi açık modeller bu kategorinin önde gelen örnekleridir. VLM daha dar bir alt küme olarak yalnızca görü+dil odaklıdır; MLLM şemsiyesi ses ve video gibi modaliteleri de kapsar.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Orta · 2023
MLLM — Çok-Modlu LLM
Görsel, ses veya video gibi modaliteleri de işleyen büyük dil modeli.
- EN — İngilizce karşılığı
- MLLM (Multimodal LLM)
- TR — Türkçe karşılığı
- MLLM — Çok-Modlu LLM