Değerlendirme döngüsü, bir Agent'ın ya da pipeline'ın ürettiği çıktının önceden tanımlanmış kriterlere göre ölçüldüğü ve sonucun bir sonraki üretim adımına geri beslendiği döngüdür. Pratikte iki katmanı vardır: çevrimdışı (offline) Eval suite'leri sürüm öncesi kalite kontrolü için, çevrimiçi (online) değerlendirme ise üretimde regresyonu yakalamak için kullanılır. Modern ajan mimarilerinde LLM-as-Judge ve Self-Critique yaygın değerlendirici olarak görev alır. Anthropic'in "Building Effective Agents" yazısı eval döngüsünü kurmadan üretime gitmemenin altını çizer; çünkü bir ajan sisteminin gerçek davranışı ancak ölçülerek anlaşılır.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Orta · 2024
Değerlendirme Döngüsü
Bir ajanın ürettiği çıktıyı sürekli olarak ölçüp düzelten geri bildirim döngüsü.
- EN — İngilizce karşılığı
- Evaluation Loop
- TR — Türkçe karşılığı
- Değerlendirme Döngüsü