Hizalama (Alignment)

Hizalama, bir AI sisteminin amaçlarının ve davranışlarının insan değerleri, kullanıcı niyetleri ve toplumsal normlarla uyumlu olmasını sağlama sorunudur. Stuart Russell ve Nick Bostrom'un erken yazılarında teorik bir mesele olarak ortaya konuldu, OpenAI ve Anthropic'in 2017 sonrası araştırma gündemiyle pratik bir mühendislik problemine dönüştü. RLHF, DPO, RLAIF ve Constitutional AI gibi yöntemler, bir LLM'in talimat takibini ve değer yansıtmasını eğitmenin uygulamalı yollarıdır. Hizalama tek bir adım değil sürekli bir süreçtir; Eval, Red Teaming ve davranış izleme tüm bu döngünün parçasıdır.