Yapay zeka modelleri, yazılımlarda hata ayıklamakta güçlük çekiyor

OpenAI, Google ve Anthropic başta olmak üzere yapay zeka devleri, kod yazma asistanları ve kodlama yeteneklerini geliştirmeye odaklansa da; modeller henüz bazı konularda beklenen seviyeye gelmiş değil. Microsoft’un Ar-Ge bölümü Microsoft Research tarafından yürütülen yeni bir çalışmaya göre, yapay zeka modelleri, yazılımlarda hata ayıklamakta güçlük çekiyor. 

Çalışmanın detayları 

Çalışma kapsamında paylaşılan bilgilere göre; yapay zeka modelleri, SWE-bench Lite adı verilen bir yazılım geliştirme kıyaslamasında birçok sorunu ayıklamakta başarısız oldu. Bu modellere Anthropic’in Claude 3.7 Sonnet’i ve OpenAI’nin o3-mini’si de dahil. Sonuçlar, bizlere yapay zekanın kodlama gibi uzmanlık gerektiren alanlarda hala insanlarla boy ölçüşemediğini göstermekte. 

Çalışmada, bir dizi hata ayıklama aracına erişimi olan tek bir istem tabanlı agent için omurga olarak dokuz farklı modeli test etti. Hata ayıklama araçları arasında Python hata ayıklayıcısı da yer aldı. Söz konusu agent’a SWE-bench Lite’da yer alan 300 yazılım hata ayıklama görevinden oluşan seçilmiş bir seti çözme görevi verildi. 

Claude 3.7 Sonnet, OpenAI o1 ve o3-mini kıyaslaması

Paylaşılan bilgilere göre; agent’lar, hata ayıklama görevlerinin yarısından fazlasını nadiren başarıyla tamamladı. Agent’lar, daha güçlü ve daha yeni modellerle donatıldıklarında bile bu durum değişmedi. Yüzde 48,4 ile Claude 3.7 Sonnet en yüksek ortalama başarı oranına sahip oldu. Claude 3.7 Sonnet’i yüzde 30,2 ile OpenAI’nin o1 ve yüzde 22,1 ile o3-mini takip etti.

Bazı modeller, kendilerine sunulan hata ayıklama araçlarını kullanmakta zorlandı. Aynı şekilde modellerin, farklı araçların farklı sorunlara nasıl yardımcı olabileceğini anlamakta da güçlük çektiğini belirtelim. Ancak çalışmanın yazarları, bunlardan daha büyük sorunun veri kıtlığı olduğunu belirtti. Yazarlar, mevcut modellerin eğitim verilerinde insan hata ayıklama izlerini temsil eden yeterli veri bulunmadığını düşünüyor. Çalışmanın yazarları modelleri eğitmenin veya ince ayar yapmanın onları daha iyi etkileşimli hata ayıklayıcılar haline getirebileceğine inanıyor. Bununla birlikte, bu tür bir model eğitimini yerine getirmek için özel veriler gerekeceğine de dikkat çekiliyor. 

Kaynak: webrazzi

Lionel

Yazıya tutkuyla bağlı olan Lionel, At gözlüklerini çıkarıp çevresine bakiyor ve gördüklerini Bikonu.com’da gündemi farklı bir bakış açısıyla ele alıyor. Analitik yaklaşımı, sade dili ve dikkat çekici yorumlarıyla okurların ilgisini çekmeyi başarıyor. İlgi alanları arasında güncel haberler, kültür, toplum ve insan hikâyeleri yer alıyor.

İlgili Yazılar

Arnavutluk’un yapay zeka bakanı Diella, 83 çocuğa hamile!
  • Ekim 29, 2025

Arnavutluk siyasetinin dijital yüzü olan Yapay Zeka Bakanı Diella’nın sanal “anneliği” tüm dünyada yankı uyandırdı. Başbakan Edi Rama, bu 83 sanal bebeğin aslında parlamentodaki milletvekillerine görevlerinde yardımcı olacak, bilgiyi annelerinden alacak yüksek zekalı asistanlar olacağını duyurdu. Kaynak chip

Devamı

Devamı
Bu kez neden Microsoft: Dünya’nın neredeyse yarısında internet çöktü
  • Ekim 29, 2025

Amazon’un ardından şimdi de Microsoft’un bulut platformu Azure’da yaşanan küresel kesinti, on binlerce kullanıcıyı etkiledi; Starbucks’tan Xbox’a kadar dev hizmetler durdu. Uzmanlar, küresel internet altyapısının bu denli iki şirkete bağlı olmasının yarattığı büyük tehlikeye dikkat çekiyor. Kaynak chip

Devamı

Devamı

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir