Ollama

Ollama, llama.cpp'in motoru üzerine inşa edilmiş, LLM'leri yerel makinede çalıştırmayı tek komuta indiren bir araçtır; 'ollama run llama3' yazdığında model otomatik indirir ve REST API olarak servis eder. Docker'a benzer kullanıcı deneyimiyle yerel LLM ekosistemini mainstream hâle getirdi; geliştiriciler için 'küçük model deneyelim' eşiğini neredeyse sıfıra indirdi. Model kütüphanesi geniştir — Llama 3, Mistral, Qwen, Phi, DeepSeek ve birçok özel ince ayar — ve OpenAI uyumlu bir API katmanı sayesinde mevcut araçlara entegrasyonu kolaydır. macOS, Linux ve Windows'ta çalışır; On-Device LLM çağının en görünür yüzlerinden biridir.