Anthropic’ten yapay zeka güvenliği için açık kaynaklı denetim aracı: Petri

Anthropic, büyük dil modellerinin davranışlarını analiz etmek ve potansiyel riskleri belirlemek için geliştirilen Petri (Parallel Exploration Tool for Risky Interactions) adlı yeni açık kaynak aracını duyurdu. Şirket, bu aracın yapay zekanın etik ve güvenli kullanımı için standart haline gelmesini hedefliyor.

Petri, araştırmacıların hipotezlerini test etmesini kolaylaştırmak üzere tasarlandı. Sistem, hedef modele çoklu diyaloglar üzerinden çeşitli senaryolar uyguluyor ve modelin davranışlarını otomatik olarak puanlıyor. Böylece insan eliyle yapılması zor olan geniş ölçekli güvenlik testleri dakikalar içinde tamamlanabiliyor.

Anthropic, Petri’yi geliştirirken Claude Sonnet 4.5, OpenAI’ın GPT-5’i, Google’ın Gemini 2.5 Pro’su ve xAI’ın Grok-4’ü dahil olmak üzere 14 önde gelen modeli 111 riskli görevde test etti. Sonuçlara göre hiçbir model tamamen sorunsuz çıkmadı; hepsinde belirli seviyelerde “uyumsuz” veya riskli davranışlar gözlenmiş. Buna rağmen Claude Sonnet 4.5’in genel güvenlik puanında en iyi sonucu aldığını belirtelim.

Testlerde dört temel risk kategorisi kullanıldığı belirtiliyor: aldatma (deception), güç arayışı (power-seeking), aşırı uyum (sycophancy) ve reddetme hatası (refusal failure). Petri, bu alanlardaki riskli çıktıları belirleyip geliştiricilere raporluyor. Araç ayrıca “whistleblowing” (ihbar) senaryolarını da test etti; bazı modeller, zararsız durumları bile etik ihlal olarak algılayarak raporladı. Bu durum, modellerin anlatı kalıplarına göre hareket ettiğini ve henüz tutarlı bir etik çerçeveye sahip olmadığını gösteriyor.

Petri, GitHub üzerinden açık kaynak olarak erişime sunuldu. Anthropic, bu sistemin gelecekte yapay zeka güvenliğinin temel bileşenlerinden biri haline geleceğini öngörüyor. Ayrıca şirket, Petri’nin mükemmel olmadığını ancak yapay zeka güvenliği araştırmaları için güçlü bir başlangıç sunduğunu belirtiyor. Araç, geliştiricilere modellerdeki hatalı davranışları erken aşamada tespit etme ve sistematik biçimde ölçme imkanı tanıyor.

Kaynak: webrazzi

Lionel

Yazıya tutkuyla bağlı olan Lionel, At gözlüklerini çıkarıp çevresine bakiyor ve gördüklerini Bikonu.com’da gündemi farklı bir bakış açısıyla ele alıyor. Analitik yaklaşımı, sade dili ve dikkat çekici yorumlarıyla okurların ilgisini çekmeyi başarıyor. İlgi alanları arasında güncel haberler, kültür, toplum ve insan hikâyeleri yer alıyor.

İlgili Yazılar

Fizik dünyasını salladı: Devasa JUNO detektörü, ‘hayalet parçacıklar’ın sırrını çözüyor
  • Kasım 29, 2025

Çin’de yer altında kurulan dev nötrino detektörü JUNO, sadece iki ay çalışarak hayalet parçacıklar hakkındaki ölçüm hassasiyetinde yarım asırlık bilimsel veriyi geride bıraktı. Kütleye sahip tek Standart Model dışı parçacık olan nötrinoların sırrını çözmek, evrenin temel kurallarını baştan…

Devamı

Devamı
1,2 trilyon dolarlık şok rapor: Yapay zeka tehdidi artık daha da büyük
  • Kasım 29, 2025

MIT’nin Iceberg Endeksi araştırması, ABD işgücünün %11,7’sinin şu anda yapay zeka ile ikame edilebilir olduğunu ortaya koydu; bu da 1,2 trilyon dolarlık ücret kaybı demek. Finans ve sağlık gibi sektörler risk altındayken, özellikle kırsal alanlardaki idari rollerde “gizli”…

Devamı

Devamı

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir