MEVZU N°12808.05.2026ISTANBULYEAR I — VOL. III

MEVZU N° ETIKET / VOL. 142

#safety

0 blog · 0 haber · 13 wiki

§03

Wiki

Önyargı (Bias)

Modelin eğitim verisi veya tasarımındaki dengesizliklerden kaynaklanan, belirli grup veya bakış açıları lehine sistematik sapmalar.

EN: Bias
TR: Önyargı (Bias)

§02Sözlük

Jailbreak

Bir LLM'in güvenlik kısıtlarını promptla aşmaya çalışan saldırı türü.

EN: Jailbreak
TR: Jailbreak

§03Sözlük

Hizasızlık (Misalignment)

Bir yapay zeka sisteminin davranışlarının, geliştiricilerinin niyetinden veya kullanıcının amaçlarından sapması.

EN: Misalignment
TR: Hizasızlık

§04Sözlük

Hizalama (Alignment)

Bir AI sisteminin amaçlarını ve davranışlarını insan değerleri ve niyetlerine yaklaştırma sorunu.

EN: Alignment
TR: Hizalama (Alignment)

§05Sözlük

Aşırı Reddetme (Over-refusal)

Modelin zararsız veya makul istekleri gereksiz yere reddetmesi.

EN: Over-refusal
TR: Aşırı Reddetme

§06Sözlük

Mekanik Yorumlanabilirlik

Modelin iç devrelerini ve nöron-nöron etkileşimlerini tersine mühendislikle çözmeyi amaçlayan yorumlanabilirlik dalı.

EN: Mechanistic Interpretability
TR: Mekanik Yorumlanabilirlik

§07Sözlük

Filigranlama (Watermarking)

AI ürettiği metnin veya görselin, görünmez bir istatistiksel imza ile işaretlenmesi tekniği.

EN: Watermarking
TR: Filigranlama

§08Sözlük

Reddetme (Refusal)

Modelin politika veya güvenlik gerekçesiyle bir isteği yerine getirmeyi reddetmesi davranışı.

EN: Refusal
TR: Reddetme (Refusal)

§09Sözlük

Yapay Zeka Güvenliği (AI Safety)

AI sistemlerinin niyetlenilen faydayı vermesini ve istenmeyen zarar üretmemesini sağlayan araştırma ve mühendislik alanı.

EN: AI Safety
TR: Yapay Zeka Güvenliği

§10Sözlük

Toksik Çıktı (Toxic Output)

Saldırgan, nefret söylemi içeren veya istismara açık üretilmiş model yanıtları.

EN: Toxic Output
TR: Toksik Çıktı

§11Sözlük

Yorumlanabilirlik (Interpretability)

Bir AI modelinin neden belirli bir çıktıya ulaştığını insan tarafından anlaşılır biçimde açıklamayı amaçlayan alan.

EN: Interpretability
TR: Yorumlanabilirlik

§12Sözlük

Red Teaming

Bir AI sisteminin sınırlarını ve zayıflıklarını adversaryal yöntemlerle test etme pratiği.

EN: Red Teaming
TR: Red Teaming

§13Sözlük

Korkuluk (Guardrail)

Bir LLM ya da ajanın izinli davranış sınırları içinde kalmasını sağlayan kontrol katmanı.

EN: Guardrail
TR: Korkuluk (Guardrail)