VLM — Görü-Dil Modeli

VLM, görsel girdileri metinle ortak bir uzayda işleyen ve metin çıktısı üreten model sınıfıdır. CLIP (OpenAI, 2021) ve BLIP (Salesforce, 2022) bu mimarinin temel taşlarıdır; bir görsel kodlayıcı ile bir dil modelinin nasıl ortak bir Embedding uzayında konuşturulacağını gösterdi. Modern VLM'ler GPT-4V, Claude Opus/Claude Sonnet 3.5+, Gemini ve LLaVA gibi modellerle belge OCR'ı, çizelge anlama, görsel soru-cevap ve UI okuma görevlerini günlük rutine taşıdı. MLLM terimi VLM'i de kapsayan daha geniş bir şemsiyedir.