MEVZU N° ETIKET / VOL. 142
#safety
0 blog · 0 haber · 13 wiki
Wiki
Önyargı (Bias)
Modelin eğitim verisi veya tasarımındaki dengesizliklerden kaynaklanan, belirli grup veya bakış açıları lehine sistematik sapmalar.
- EN
- Bias
- TR
- Önyargı (Bias)
Jailbreak
Bir LLM'in güvenlik kısıtlarını promptla aşmaya çalışan saldırı türü.
- EN
- Jailbreak
- TR
- Jailbreak
Hizasızlık (Misalignment)
Bir yapay zeka sisteminin davranışlarının, geliştiricilerinin niyetinden veya kullanıcının amaçlarından sapması.
- EN
- Misalignment
- TR
- Hizasızlık
Hizalama (Alignment)
Bir AI sisteminin amaçlarını ve davranışlarını insan değerleri ve niyetlerine yaklaştırma sorunu.
- EN
- Alignment
- TR
- Hizalama (Alignment)
Aşırı Reddetme (Over-refusal)
Modelin zararsız veya makul istekleri gereksiz yere reddetmesi.
- EN
- Over-refusal
- TR
- Aşırı Reddetme
Mekanik Yorumlanabilirlik
Modelin iç devrelerini ve nöron-nöron etkileşimlerini tersine mühendislikle çözmeyi amaçlayan yorumlanabilirlik dalı.
- EN
- Mechanistic Interpretability
- TR
- Mekanik Yorumlanabilirlik
Filigranlama (Watermarking)
AI ürettiği metnin veya görselin, görünmez bir istatistiksel imza ile işaretlenmesi tekniği.
- EN
- Watermarking
- TR
- Filigranlama
Reddetme (Refusal)
Modelin politika veya güvenlik gerekçesiyle bir isteği yerine getirmeyi reddetmesi davranışı.
- EN
- Refusal
- TR
- Reddetme (Refusal)
Yapay Zeka Güvenliği (AI Safety)
AI sistemlerinin niyetlenilen faydayı vermesini ve istenmeyen zarar üretmemesini sağlayan araştırma ve mühendislik alanı.
- EN
- AI Safety
- TR
- Yapay Zeka Güvenliği
Toksik Çıktı (Toxic Output)
Saldırgan, nefret söylemi içeren veya istismara açık üretilmiş model yanıtları.
- EN
- Toxic Output
- TR
- Toksik Çıktı
Yorumlanabilirlik (Interpretability)
Bir AI modelinin neden belirli bir çıktıya ulaştığını insan tarafından anlaşılır biçimde açıklamayı amaçlayan alan.
- EN
- Interpretability
- TR
- Yorumlanabilirlik
Red Teaming
Bir AI sisteminin sınırlarını ve zayıflıklarını adversaryal yöntemlerle test etme pratiği.
- EN
- Red Teaming
- TR
- Red Teaming
Korkuluk (Guardrail)
Bir LLM ya da ajanın izinli davranış sınırları içinde kalmasını sağlayan kontrol katmanı.
- EN
- Guardrail
- TR
- Korkuluk (Guardrail)