MEVZU N°12707.05.2026ISTANBULYEAR I — VOL. III

tag.detailKicker

#safety

tag.detailSubtitle

§03

tag.wikiSection

§01wiki.types.glossary

Önyargı (Bias)

Modelin eğitim verisi veya tasarımındaki dengesizliklerden kaynaklanan, belirli grup veya bakış açıları lehine sistematik sapmalar.

EN: Bias
TR: Önyargı (Bias)

§02wiki.types.glossary

Jailbreak

Bir LLM'in güvenlik kısıtlarını promptla aşmaya çalışan saldırı türü.

EN: Jailbreak
TR: Jailbreak

§03wiki.types.glossary

Hizasızlık (Misalignment)

Bir yapay zeka sisteminin davranışlarının, geliştiricilerinin niyetinden veya kullanıcının amaçlarından sapması.

EN: Misalignment
TR: Hizasızlık

§04wiki.types.glossary

Hizalama (Alignment)

Bir AI sisteminin amaçlarını ve davranışlarını insan değerleri ve niyetlerine yaklaştırma sorunu.

EN: Alignment
TR: Hizalama (Alignment)

§05wiki.types.glossary

Aşırı Reddetme (Over-refusal)

Modelin zararsız veya makul istekleri gereksiz yere reddetmesi.

EN: Over-refusal
TR: Aşırı Reddetme

§06wiki.types.glossary

Mekanik Yorumlanabilirlik

Modelin iç devrelerini ve nöron-nöron etkileşimlerini tersine mühendislikle çözmeyi amaçlayan yorumlanabilirlik dalı.

EN: Mechanistic Interpretability
TR: Mekanik Yorumlanabilirlik

§07wiki.types.glossary

Filigranlama (Watermarking)

AI ürettiği metnin veya görselin, görünmez bir istatistiksel imza ile işaretlenmesi tekniği.

EN: Watermarking
TR: Filigranlama

§08wiki.types.glossary

Reddetme (Refusal)

Modelin politika veya güvenlik gerekçesiyle bir isteği yerine getirmeyi reddetmesi davranışı.

EN: Refusal
TR: Reddetme (Refusal)

§09wiki.types.glossary

Yapay Zeka Güvenliği (AI Safety)

AI sistemlerinin niyetlenilen faydayı vermesini ve istenmeyen zarar üretmemesini sağlayan araştırma ve mühendislik alanı.

EN: AI Safety
TR: Yapay Zeka Güvenliği

§10wiki.types.glossary

Toksik Çıktı (Toxic Output)

Saldırgan, nefret söylemi içeren veya istismara açık üretilmiş model yanıtları.

EN: Toxic Output
TR: Toksik Çıktı

§11wiki.types.glossary

Yorumlanabilirlik (Interpretability)

Bir AI modelinin neden belirli bir çıktıya ulaştığını insan tarafından anlaşılır biçimde açıklamayı amaçlayan alan.

EN: Interpretability
TR: Yorumlanabilirlik

§12wiki.types.glossary

Red Teaming

Bir AI sisteminin sınırlarını ve zayıflıklarını adversaryal yöntemlerle test etme pratiği.

EN: Red Teaming
TR: Red Teaming

§13wiki.types.glossary

Korkuluk (Guardrail)

Bir LLM ya da ajanın izinli davranış sınırları içinde kalmasını sağlayan kontrol katmanı.

EN: Guardrail
TR: Korkuluk (Guardrail)