Google’dan bilgisayar kullanımına odaklanan yeni yapay zeka modeli: Gemini 2.5 Computer Use

Google, Gemini 2.5 Computer Use modelini tanıttı. Görsel anlama ve akıl yürütme yeteneklerini kullanan model, kullanıcının isteğini analiz ederek form doldurma ve gönderme gibi görevleri yerine getiriyor. Ön izlemede sunulan Gemini 2.5 Computer Use, bir tarayıcı aracılığıyla web’de gezinmek ve etkileşim kurmak için tasarlandı.

Söz konusu model, yapay zeka ajanlarının robotlar için değil insanlar için tasarlanmış arayüzlerde işlemler yapmasına imkan tanıyor. Model tarafından desteklenen diğer arayüz (UI) eylemleri arasında geri/ileri gitme, web’de arama yapma, belirli bir URL’ye gitme, imleci üzerine getirme, klavye kombinasyonları, kaydırma ve sürükle/bırakma yer alıyor.

Bu model, Gemini 2.5 Pro’nun görsel anlama ve akıl yürütme yetenekleri üzerine inşa edildi. Gemini 2.5 Computer Use’un diğer sürümlerinin, AI Mode ve Project Mariner’da ajan özellikleri için kullanıldığını belirtelim. Bir araştırma prototipi olan Project Mariner’ın yapay zeka ajanlarını kullanarak tarayıcıda kendi başına görevleri yerine getirdiğini hatırlatalım.

[embedded content]

Google, bilgisayar kullanımı aracının nasıl çalıştığını gösteren bazı demo videolar yayınladı. Paylaşılan bilgilere göre bu demolar 3 kat hızlandırıldı.

[embedded content]

Google’ın belirttiğine göre; bilgisayar kullanımı modeli, birçok web ve mobil benchmark testinde önde gelen alternatiflerden daha iyi performans gösterdi.

Öte yandan ChatGPT Agent ve Anthropic’in bilgisayar kullanımı aracından farklı olarak, Google’ın yeni yapay zeka modeli yalnızca bir tarayıcıya erişebiliyor. Yani modelin tüm bilgisayar ortamına erişmesi şu an için söz konusu değil. Google’ın belirttiğine göre model, henüz masaüstü işletim sistemi düzeyinde kontrol için optimize edilmedi. Bununla beraber modelin şu anda web tarayıcısı açma, metin yazma ve öğeleri sürükleyip bırakma dahil 13 eylemi desteklediğini ekleyelim.

Geliştiriciler, Gemini 2.5 Computer Use modelini Google AI Studio ve Vertex AI üzerinden kullanabilecek. Buna ek olarak Browserbase’de de bir demonun yer aldığını belirtelim.

Google’ın duyurusunun, OpenAI’nin yıllık Dev Day etkinliği kapsamında ChatGPT için yeni uygulamaları açıklamasından sadece bir gün sonra gerçekleşmesi dikkat çekti. Geçen yıl “bilgisayar kullanımı” özelliğine sahip Claude AI modelinin bir sürümünü piyasaya süren Anthropic ise yarışın öncülerinden biri olarak öne çıkıyor. Google’ın Gemini 2.5 Computer Use modeli ile OpenAI ve Anthropic’e yetiştiğini söylemek mümkün.

Kaynak: webrazzi