Скокни на содржина
MEVZU N°127ISTANBUL

tag.detailKicker

#safety

tag.detailSubtitle

§03

tag.wikiSection

13
§01wiki.types.glossary

Önyargı (Bias)

Modelin eğitim verisi veya tasarımındaki dengesizliklerden kaynaklanan, belirli grup veya bakış açıları lehine sistematik sapmalar.

EN
Bias
TR
Önyargı (Bias)
§02wiki.types.glossary

Jailbreak

Bir LLM'in güvenlik kısıtlarını promptla aşmaya çalışan saldırı türü.

EN
Jailbreak
TR
Jailbreak
§03wiki.types.glossary

Hizasızlık (Misalignment)

Bir yapay zeka sisteminin davranışlarının, geliştiricilerinin niyetinden veya kullanıcının amaçlarından sapması.

EN
Misalignment
TR
Hizasızlık
§04wiki.types.glossary

Hizalama (Alignment)

Bir AI sisteminin amaçlarını ve davranışlarını insan değerleri ve niyetlerine yaklaştırma sorunu.

EN
Alignment
TR
Hizalama (Alignment)
§05wiki.types.glossary

Aşırı Reddetme (Over-refusal)

Modelin zararsız veya makul istekleri gereksiz yere reddetmesi.

EN
Over-refusal
TR
Aşırı Reddetme
§06wiki.types.glossary

Mekanik Yorumlanabilirlik

Modelin iç devrelerini ve nöron-nöron etkileşimlerini tersine mühendislikle çözmeyi amaçlayan yorumlanabilirlik dalı.

EN
Mechanistic Interpretability
TR
Mekanik Yorumlanabilirlik
§07wiki.types.glossary

Filigranlama (Watermarking)

AI ürettiği metnin veya görselin, görünmez bir istatistiksel imza ile işaretlenmesi tekniği.

EN
Watermarking
TR
Filigranlama
§08wiki.types.glossary

Reddetme (Refusal)

Modelin politika veya güvenlik gerekçesiyle bir isteği yerine getirmeyi reddetmesi davranışı.

EN
Refusal
TR
Reddetme (Refusal)
§09wiki.types.glossary

Yapay Zeka Güvenliği (AI Safety)

AI sistemlerinin niyetlenilen faydayı vermesini ve istenmeyen zarar üretmemesini sağlayan araştırma ve mühendislik alanı.

EN
AI Safety
TR
Yapay Zeka Güvenliği
§10wiki.types.glossary

Toksik Çıktı (Toxic Output)

Saldırgan, nefret söylemi içeren veya istismara açık üretilmiş model yanıtları.

EN
Toxic Output
TR
Toksik Çıktı
§11wiki.types.glossary

Yorumlanabilirlik (Interpretability)

Bir AI modelinin neden belirli bir çıktıya ulaştığını insan tarafından anlaşılır biçimde açıklamayı amaçlayan alan.

EN
Interpretability
TR
Yorumlanabilirlik
§12wiki.types.glossary

Red Teaming

Bir AI sisteminin sınırlarını ve zayıflıklarını adversaryal yöntemlerle test etme pratiği.

EN
Red Teaming
TR
Red Teaming
§13wiki.types.glossary

Korkuluk (Guardrail)

Bir LLM ya da ajanın izinli davranış sınırları içinde kalmasını sağlayan kontrol katmanı.

EN
Guardrail
TR
Korkuluk (Guardrail)