Constitutional AI, Anthropic'in 2022'de yayımladığı, modelin kendi çıktılarını yazılı bir ilkeler setine ('anayasa') göre eleştirip düzelttiği bir hizalama yaklaşımıdır. Süreç iki aşamadan oluşur: önce modele kendi cevaplarını anayasaya göre revize etmesi öğretilir (denetimli faz), sonra bu sürecin ürettiği tercih verisi RLAIF formatında kullanılır. Amaç, 'yardımcı ve zararsız' arasındaki gerilimi tek tek insan etiketleri yerine açık ve denetlenebilir kurallarla yönetmektir; Claude'un karakterinin önemli bir bölümü bu tekniğe dayanır. Anayasal yaklaşım, AI safety topluluğunda yorumlanabilir ve denetlenebilir hizalama için önemli bir referanstır.
Dış Bağlantılar