Google’dan bilgisayar kullanımına odaklanan yeni yapay zeka modeli: Gemini 2.5 Computer Use

GoogleGemini 2.5 Computer Use modelini tanıttı. Görsel anlama ve akıl yürütme yeteneklerini kullanan model, kullanıcının isteğini analiz ederek form doldurma ve gönderme gibi görevleri yerine getiriyor. Ön izlemede sunulan Gemini 2.5 Computer Use, bir tarayıcı aracılığıyla web’de gezinmek ve etkileşim kurmak için tasarlandı.

Söz konusu model, yapay zeka ajanlarının robotlar için değil insanlar için tasarlanmış arayüzlerde işlemler yapmasına imkan tanıyor. Model tarafından desteklenen diğer arayüz (UI) eylemleri arasında geri/ileri gitme, web’de arama yapma, belirli bir URL’ye gitme, imleci üzerine getirme, klavye kombinasyonları, kaydırma ve sürükle/bırakma yer alıyor.

Bu model, Gemini 2.5 Pro’nun görsel anlama ve akıl yürütme yetenekleri üzerine inşa edildi. Gemini 2.5 Computer Use’un diğer sürümlerinin, AI Mode ve Project Mariner’da ajan özellikleri için kullanıldığını belirtelim. Bir araştırma prototipi olan Project Mariner’ın yapay zeka ajanlarını kullanarak tarayıcıda kendi başına görevleri yerine getirdiğini hatırlatalım. 

[embedded content]

Google, bilgisayar kullanımı aracının nasıl çalıştığını gösteren bazı demo videolar yayınladı. Paylaşılan bilgilere göre bu demolar 3 kat hızlandırıldı. 

[embedded content]

Google’ın belirttiğine göre; bilgisayar kullanımı modeli, birçok web ve mobil benchmark testinde önde gelen alternatiflerden daha iyi performans gösterdi. 

Öte yandan ChatGPT Agent ve Anthropic’in bilgisayar kullanımı aracından farklı olarak, Google’ın yeni yapay zeka modeli yalnızca bir tarayıcıya erişebiliyor. Yani modelin tüm bilgisayar ortamına erişmesi şu an için söz konusu değil. Google’ın belirttiğine göre model, henüz masaüstü işletim sistemi düzeyinde kontrol için optimize edilmedi. Bununla beraber modelin şu anda web tarayıcısı açma, metin yazma ve öğeleri sürükleyip bırakma dahil 13 eylemi desteklediğini ekleyelim. 

Geliştiriciler, Gemini 2.5 Computer Use modelini Google AI Studio ve Vertex AI üzerinden kullanabilecek. Buna ek olarak Browserbase’de de bir demonun yer aldığını belirtelim. 

Google’ın duyurusunun, OpenAI’nin yıllık Dev Day etkinliği kapsamında ChatGPT için yeni uygulamaları açıklamasından sadece bir gün sonra gerçekleşmesi dikkat çekti. Geçen yıl “bilgisayar kullanımı” özelliğine sahip Claude AI modelinin bir sürümünü piyasaya süren Anthropic ise yarışın öncülerinden biri olarak öne çıkıyor. Google’ın Gemini 2.5 Computer Use modeli ile OpenAI ve Anthropic’e yetiştiğini söylemek mümkün. 

Kaynak: webrazzi

Lionel

Yazıya tutkuyla bağlı olan Lionel, At gözlüklerini çıkarıp çevresine bakiyor ve gördüklerini Bikonu.com’da gündemi farklı bir bakış açısıyla ele alıyor. Analitik yaklaşımı, sade dili ve dikkat çekici yorumlarıyla okurların ilgisini çekmeyi başarıyor. İlgi alanları arasında güncel haberler, kültür, toplum ve insan hikâyeleri yer alıyor.

İlgili Yazılar

OpenAI, Sora’nın telif ve deepfake krizini öngöremedi
  • Ekim 8, 2025

OpenAI’nin yeni video üretim aracı Sora, telif hakkı ve deepfake kriziyle gündemde. Sam Altman, kullanıcı tepkileri sonrası politika değişikliğine giderken, şirket daha fazla kontrol ve güvenlik sözü veriyor. Kaynak chip

Devamı

Devamı
Tamamen elektrikli ve plug-in hybrid araçlar, geleneksel araçlara göre daha mı sorunlu?
  • Ekim 8, 2025

Birçok tüketici sıfır emisyonlu bir geleceğe adım atarken, güvenilirlik raporları elektrikli araçlar hakkında düşündürücü veriler sunuyor. Kapsamlı testler yapan Consumer Reports’un verilerine göre, son üç yılda satılan EV’ler, benzinli araçlara kıyasla yüzde 42 daha fazla arıza bildirimi aldı.…

Devamı

Devamı

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir