Anthropic’ten yapay zeka güvenliği için açık kaynaklı denetim aracı: Petri

Anthropic, büyük dil modellerinin davranışlarını analiz etmek ve potansiyel riskleri belirlemek için geliştirilen Petri (Parallel Exploration Tool for Risky Interactions) adlı yeni açık kaynak aracını duyurdu. Şirket, bu aracın yapay zekanın etik ve güvenli kullanımı için standart haline gelmesini hedefliyor.

Petri, araştırmacıların hipotezlerini test etmesini kolaylaştırmak üzere tasarlandı. Sistem, hedef modele çoklu diyaloglar üzerinden çeşitli senaryolar uyguluyor ve modelin davranışlarını otomatik olarak puanlıyor. Böylece insan eliyle yapılması zor olan geniş ölçekli güvenlik testleri dakikalar içinde tamamlanabiliyor.

Anthropic, Petri’yi geliştirirken Claude Sonnet 4.5, OpenAI’ın GPT-5’i, Google’ın Gemini 2.5 Pro’su ve xAI’ın Grok-4’ü dahil olmak üzere 14 önde gelen modeli 111 riskli görevde test etti. Sonuçlara göre hiçbir model tamamen sorunsuz çıkmadı; hepsinde belirli seviyelerde “uyumsuz” veya riskli davranışlar gözlenmiş. Buna rağmen Claude Sonnet 4.5’in genel güvenlik puanında en iyi sonucu aldığını belirtelim.

Testlerde dört temel risk kategorisi kullanıldığı belirtiliyor: aldatma (deception), güç arayışı (power-seeking), aşırı uyum (sycophancy) ve reddetme hatası (refusal failure). Petri, bu alanlardaki riskli çıktıları belirleyip geliştiricilere raporluyor. Araç ayrıca “whistleblowing” (ihbar) senaryolarını da test etti; bazı modeller, zararsız durumları bile etik ihlal olarak algılayarak raporladı. Bu durum, modellerin anlatı kalıplarına göre hareket ettiğini ve henüz tutarlı bir etik çerçeveye sahip olmadığını gösteriyor.

Petri, GitHub üzerinden açık kaynak olarak erişime sunuldu. Anthropic, bu sistemin gelecekte yapay zeka güvenliğinin temel bileşenlerinden biri haline geleceğini öngörüyor. Ayrıca şirket, Petri’nin mükemmel olmadığını ancak yapay zeka güvenliği araştırmaları için güçlü bir başlangıç sunduğunu belirtiyor. Araç, geliştiricilere modellerdeki hatalı davranışları erken aşamada tespit etme ve sistematik biçimde ölçme imkanı tanıyor.

Kaynak: webrazzi

Lionel

Yazıya tutkuyla bağlı olan Lionel, At gözlüklerini çıkarıp çevresine bakiyor ve gördüklerini Bikonu.com’da gündemi farklı bir bakış açısıyla ele alıyor. Analitik yaklaşımı, sade dili ve dikkat çekici yorumlarıyla okurların ilgisini çekmeyi başarıyor. İlgi alanları arasında güncel haberler, kültür, toplum ve insan hikâyeleri yer alıyor.

İlgili Yazılar

1915’te batan efsanevi Endurance gemisinin kaderi, en başından belliymiş
  • Ekim 8, 2025

Sir Ernest Shackleton’ın efsanevi Antarktika yolculuğunda batan gemisi Endurance’ın hikayesi, yüz yılı aşkın süredir dillerde. Ancak yeni bir bilimsel araştırma, geminin buzullar tarafından ezilmesinin bir şanssızlık değil, yapısal bir kusur olduğunu öne sürüyor. Kaynak chip

Devamı

Devamı
ChatGPT’nin “Dadı Modu” kullanıcıları kızdırdı, Gemini’ye kaçış başladı
  • Ekim 8, 2025

ChatGPT’nin aylık ziyaretçi payı düşerken, Google Gemini bir ayda %46’lık rekor bir trafik artışı yakaladı. Analizler, bu keskin değişimin arkasında OpenAI’nin kullanıcıları öfkelendiren yeni güvenlik önlemlerinin olabileceğini gösteriyor. Kaynak chip

Devamı

Devamı

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir