Yapay zeka modelleri, yazılımlarda hata ayıklamakta güçlük çekiyor

OpenAI, Google ve Anthropic başta olmak üzere yapay zeka devleri, kod yazma asistanları ve kodlama yeteneklerini geliştirmeye odaklansa da; modeller henüz bazı konularda beklenen seviyeye gelmiş değil. Microsoft’un Ar-Ge bölümü Microsoft Research tarafından yürütülen yeni bir çalışmaya göre, yapay zeka modelleri, yazılımlarda hata ayıklamakta güçlük çekiyor.

Çalışmanın detayları

Çalışma kapsamında paylaşılan bilgilere göre; yapay zeka modelleri, SWE-bench Lite adı verilen bir yazılım geliştirme kıyaslamasında birçok sorunu ayıklamakta başarısız oldu. Bu modellere Anthropic’in Claude 3.7 Sonnet’i ve OpenAI’nin o3-mini’si de dahil. Sonuçlar, bizlere yapay zekanın kodlama gibi uzmanlık gerektiren alanlarda hala insanlarla boy ölçüşemediğini göstermekte.

Çalışmada, bir dizi hata ayıklama aracına erişimi olan tek bir istem tabanlı agent için omurga olarak dokuz farklı modeli test etti. Hata ayıklama araçları arasında Python hata ayıklayıcısı da yer aldı. Söz konusu agent’a SWE-bench Lite’da yer alan 300 yazılım hata ayıklama görevinden oluşan seçilmiş bir seti çözme görevi verildi.

Claude 3.7 Sonnet, OpenAI o1 ve o3-mini kıyaslaması

Paylaşılan bilgilere göre; agent’lar, hata ayıklama görevlerinin yarısından fazlasını nadiren başarıyla tamamladı. Agent’lar, daha güçlü ve daha yeni modellerle donatıldıklarında bile bu durum değişmedi. Yüzde 48,4 ile Claude 3.7 Sonnet en yüksek ortalama başarı oranına sahip oldu. Claude 3.7 Sonnet’i yüzde 30,2 ile OpenAI’nin o1 ve yüzde 22,1 ile o3-mini takip etti.

Bazı modeller, kendilerine sunulan hata ayıklama araçlarını kullanmakta zorlandı. Aynı şekilde modellerin, farklı araçların farklı sorunlara nasıl yardımcı olabileceğini anlamakta da güçlük çektiğini belirtelim. Ancak çalışmanın yazarları, bunlardan daha büyük sorunun veri kıtlığı olduğunu belirtti. Yazarlar, mevcut modellerin eğitim verilerinde insan hata ayıklama izlerini temsil eden yeterli veri bulunmadığını düşünüyor. Çalışmanın yazarları modelleri eğitmenin veya ince ayar yapmanın onları daha iyi etkileşimli hata ayıklayıcılar haline getirebileceğine inanıyor. Bununla birlikte, bu tür bir model eğitimini yerine getirmek için özel veriler gerekeceğine de dikkat çekiliyor.

Kaynak: webrazzi