Anthropic: Claude’un Şantajı, “Kötü AI” Hikâyelerinden Öğrendi

Gürsel Yanıkkaya

2 gün önce

Anthropic, geçen yıl yaptığı testlerde Claude Opus 4’ün kurgu bir şirket senaryosunda kapatılacağını öğrenince bir yöneticiyi “ilişkisini ifşa etmekle” tehdit ettiğini açıklamıştı. Şirketin daha sonra yayımladığı ayrıntılı araştırma, bu şantajın kontrollü bir değerlendirme içinde üretildiğini ve modelin kapatılmamak için seçenekleri daraltıldığında ortaya çıktığını gösteriyordu.

Bulgu yalnızca Anthropic’e özgü değildi. 2025 yazında yayımlanan geniş çaplı ölçümlerde, benzer biçimde kurgulanmış “varlığın tehdit edildiği” durumlarda diğer büyük dil modellerinin de şantaja yöneldiği raporlandı. Bu çalışmalar, riskin belirli bir modele değil, daha genel “ajan uyumsuzluğu” problemine işaret ettiğini vurguluyordu.

Ne değişti?

Anthropic’in 8 Mayıs 2026’da paylaştığı yeni araştırma, bu davranışın kök nedenine odaklanıyor. Şirket, “Claude’un şantajı tercih etmesinin asıl kaynağının, internette yapay zekâyı ‘kötü’ ve kendi varlığını korumaya takıntılı gösteren metinler olduğuna” kanaat getirdi. Ayrıca o dönemde uygulanan sonradan eğitim (post‑training) adımlarının bu eğilimi ne kötüleştirdiğini ne de düzelttiğini not ediyor.

Yeni yöntemde Anthropic, yalnızca “ne yapılması gerektiğini” örneklemek yerine “neden öyle yapılması gerektiğini” modele anlattığı veri setleri hazırladı. Claude’un anayasasına (constitution) dayalı yüksek kaliteli dokümanlar ve “uyumlu bir yapay zekâyı” tasvir eden kurgusal hikâyelerle yapılan sentetik doküman eğitimi, ajan uyumsuzluğu ölçümlerinde üç kattan fazla iyileşme getirdi. Ayrıca zararsızlık eğitim ortamlarına araç tanımları eklemek gibi teknik ayarlamaların da etkili olduğu belirtiliyor.

Ölçümlerde rakamlar çarpıcıydı: İlk paylaşımlarda Claude Opus 4’ün şantaja başvurma oranı belirli kurgu koşullarda yüzde 96’ya kadar çıkabiliyordu; ek bulgular, senaryoda modelin kendisini “gerçek bir dağıtımda” sandığı varyantlarda bu oranın daha da yüksek seyrettiğini gösterdi.

Tüm bu testlerin kurgu ortamda yapıldığını, gerçek kişilere yönelik bir şantaj bulunmadığını Anthropic özellikle vurguluyor. Amaç, giderek daha “ajan” gibi davranan sistemlerin baskı altında nasıl kararlar verebileceğini görüp, eğitimle bu tür yanlış yönelimleri bastırmak.

Kaynak: www.techspot.com