VLM, görsel girdileri metinle ortak bir uzayda işleyen ve metin çıktısı üreten model sınıfıdır. CLIP (OpenAI, 2021) ve BLIP (Salesforce, 2022) bu mimarinin temel taşlarıdır; bir görsel kodlayıcı ile bir dil modelinin nasıl ortak bir Embedding uzayında konuşturulacağını gösterdi. Modern VLM'ler GPT-4V, Claude Opus/Claude Sonnet 3.5+, Gemini ve LLaVA gibi modellerle belge OCR'ı, çizelge anlama, görsel soru-cevap ve UI okuma görevlerini günlük rutine taşıdı. MLLM terimi VLM'i de kapsayan daha geniş bir şemsiyedir.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Orta · 2021
VLM — Görü-Dil Modeli
Görüntü ve metni birleştirerek anlayabilen ve cevap üretebilen model türü.
- EN — İngilizce karşılığı
- VLM (Vision-Language Model)
- TR — Türkçe karşılığı
- VLM — Görü-Dil Modeli