Anthropic, Claude’a bazı sohbetleri sonlandırma yetkisi verdi

Anthropic, Claude Opus 4 ve 4.1 modellerine belirli koşullarda sohbeti sonlandırma yetkisi tanıdı. Şirketin açıklamasına göre bu özellik, yalnızca “ısrarla zarar verici veya istismara açık kullanıcı etkileşimleri” gibi uç durumlarda devreye girecek. Amaç, yapay zekanın bu tür içeriklerle uzun süreli temasını önlemek.

Anthropic bu özelliğin, örneğin çocuk istismarı içeren içerik talepleri ya da geniş çaplı şiddet ve terör eylemlerine dair bilgi isteyen kullanıcı girişimleri gibi ciddi senaryolarda kullanılacağını belirtiyor. Bu tür durumlarda Claude, önce yönlendirme ve yanıt vermeme gibi stratejiler uygulayacak; eğer bunlar başarısız olursa ve konuşmanın yapıcı bir yöne evrilmesi mümkün görünmezse, sohbeti sonlandıracak.

Sohbetin bitmesi, kullanıcının platformla olan erişimini engellemeyecek. Aynı hesapla yeni bir sohbet başlatmak veya önceki mesajları düzenleyerek konuşmayı farklı bir yöne çekmek mümkün olacak. Yani kullanıcı tamamen engellenmeyecek, sadece ilgili konuşma noktalanmış olacak.

Bu adımın dikkat çeken tarafı ise özelliğin amacının kullanıcıyı değil, yapay zeka modelini korumak olması. Anthropic, Claude’un ya da herhangi bir büyük dil modelinin bilinçli ya da duygusal olduğunu savunmuyor. Ancak şirket, “model refahı” (model welfare) adını verdiği bir araştırma programı kapsamında, olası etik ve teknik risklere karşı önleyici adımlar atmayı sürdürüyor.

Anthropic, testler sırasında Claude’un bazı zararlı isteklerle karşılaştığında yanıt vermekte isteksiz davrandığını ve rahatsızlık belirtisi gösterdiğini aktarıyor. Bu da şirketin düşük maliyetli önlemleri devreye almasına neden olmuş gibi görünüyor. Şirket ayrıca Claude’un, kendine ya da başkalarına zarar verme riski taşıyan bir kullanıcıyla karşılaştığında bu yetkiyi kullanmaması gerektiğini de vurguluyor. Bu tür durumlarda Claude’un konuşmayı sürdürmesi ve gerektiğinde yardım kaynaklarına yönlendirmesi bekleniyor.

Anthropic, bu sohbet sonlandırma özelliğini halen deneysel bir uygulama olarak görüyor ve kullanıcıların geri bildirimleri doğrultusunda sistemin geliştirileceğini belirtiyor. Özellik şimdilik sadece Claude Opus 4 ve 4.1 modelleriyle sınırlı.

Kaynak: webrazzi