DeepSeek’ten uzun metinleri işlemeye odaklanan yapay zeka modeli: DeepSeek-V3.2-Exp

DeepSeek‘in MIT lisansı ile yayınlanan V3 sürümü DeepSeek-V3-0324’ü sizlerle paylaşmıştık. Ağustos ayında şirketin ajan çağı için ilk adımı olarak tanımlanan DeepSeek V3.1‘i tanıtan Çin merkezli şirket, yalnızca birkaç gün önce, bir önceki sürüme kıyasla benchmark testlerinde daha istikrarlı ve güvenilir sonuçlar sunan DeepSeek-V3.1-Terminus ile gündeme geldi. Şirket şimdi de DeepSeek-V3.2-Exp adlı deneysel modeli ile karşımızda. DeepSeek’in belirttiğine göre; DeepSeek-V3.2-Exp, önceki V3.1-Terminus modeliyle neredeyse aynı çıktı kalitesini korurken, uzun metinleri çok daha verimli bir şekilde işliyor. 

Paylaşılan bilgilere göre bu deneysel sürüm, V3.1-Terminus modelini temel alarak DeepSeek Sparse Attention (DSA) teknolojisini sunuyor. Seyrek dikkat teknolojisi olarak tanımlayabileceğimiz DSA’nın, uzun bağlamlarda eğitim ve çıkarımları önemli ölçüde iyileştirmesi bekleniyor.

Seyrek dikkat mekanizması, uzun metinlerin yalnızca ilgili kısımlarını işleme için seçiyor. Böylece bu yöntem, gereken hesaplama gücünü önemli ölçüde azaltıyor. Burada geleneksel dikkat mekanizmalarından da bahsetmekte fayda var. Geleneksel dikkat mekanizmaları, her kelimeyi diğer tüm kelimelerle ilişkili olarak değerlendiriyor. Bu nedenle, uzun metinler için katlanarak artan hesaplama gücü gerekiyor. Geliştiriciler DeepSeek’in seyrek dikkat mekanizması sayesinde kapsamlı belgeler için daha hızlı eğitim ve daha ucuz çıkarım elde edebilir.

DeepSeek, V3.2-Exp’yi önceki V3.1-Terminus modeliyle kapsamlı bir şekilde kıyaslıyor. MMLU-Pro gibi ölçütlerde, her iki modelin de 85,0 puanla aynı skoru alması dikkat çekiyor. Codeforces gibi programlama ölçütlerinde, V3.2-Exp’in 2121 puanla V3.1-Terminus’un 2046 puanına kıyasla biraz daha iyi performans gösterdiğini belirtelimç Şirket, adil bir karşılaştırma yapabilmek için kasıtlı olarak aynı eğitim yapılandırmalarını kullandığını belirtiyor. 

V3.2-Exp modeli, ticari ve akademik kullanıma izin veren bir MIT lisansı altında çalışıyor. Model, çeşitli platformlar aracılığıyla geliştiriciler tarafından kullanılabiliyor. HuggingFace modele erişim sağlarken, vLLM destek sunuyor. Model, Nvidia H200’den AMD yongalarına kadar çeşitli donanım yapılandırmalarında çalışıyor. DeepSeek, modeli yerel olarak çalıştırmak isteyen geliştiriciler için çıkarım kodunu da kullanıma sundu. Bununla beraber HuggingFace model ağırlıklarından yerel kullanıma dönüştürme sürecinin, GPU yapılandırması ve uzman ayarları için bazı düzenlemeler gerektirdiğini belirtelim.

Kaynak: webrazzi

Lionel

Yazıya tutkuyla bağlı olan Lionel, At gözlüklerini çıkarıp çevresine bakiyor ve gördüklerini Bikonu.com’da gündemi farklı bir bakış açısıyla ele alıyor. Analitik yaklaşımı, sade dili ve dikkat çekici yorumlarıyla okurların ilgisini çekmeyi başarıyor. İlgi alanları arasında güncel haberler, kültür, toplum ve insan hikâyeleri yer alıyor.

İlgili Yazılar

Yazıcıda mürekkep derdi bitti mi? Epson EcoTank L4360 gerçekten bu sorunu çözüyor mu? İnceledik!
  • Eylül 29, 2025

Yazıcıların en çok şikayet edilen özelliği, düşük ilk satın alma fiyatına rağmen sonrasında yüksek mürekkep ve kartuş fiyatına katlanmaktır. Epson yeni yazıcısı EcoTak L4360 ile tek mürekkep dolumuyla yaklaşık 15 bin sayfa çıktı alma imkanı sağlıyor. Kaynak chip

Devamı

Devamı
Mobil uygulamalar, sandığınızdan çok daha riskli olabilir
  • Eylül 29, 2025

Android ve iOS uygulamalarının önemli bir bölümü kullanıcı verilerini korumakta yetersiz kalıyor. API güvenliği, istemci taraflı saldırılar ve yanlış veri yönetimi mobil cihazları hedef haline getiriyor. Kaynak chip

Devamı

Devamı

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir