Google, Çarşamba günü Gemini 2.0 olarak adlandırılan Gemini 1.5 AI modelleri ailesinin halefini tanıttı. Şirket, yeni yapay zeka modellerinin, görüntü oluşturma ve ses oluşturma için yerel destek de dahil olmak üzere gelişmiş yeteneklerle birlikte geldiğini vurguladı. Şu anda Gemini 2.0 modeli, belirli geliştiriciler ve test uzmanları için beta olarak mevcuttur; Gemini 2.0 Flash AI modeli ise tüm kullanıcılar için chatbotun web ve mobil uygulamalarına eklenmiştir. Google, daha büyük modelin de yakında ürünlerine aktarılacağını söyledi.
Google Gemini 2.0 Yapay Zeka Modelleri
Gemini 1.5 serisi AI modellerinin piyasaya sürülmesinden dokuz ay sonra, Google şimdi büyük dil modelinin (LLM) yükseltilmiş sürümünü tanıttı. bir blog yazısıile şirket, Gemini 2.0 ailesindeki ilk modeli, Gemini 2.0 Flash’ın deneysel versiyonunu piyasaya sürdüğünü duyurdu. Flash modeli genellikle daha az parametre içerir ve karmaşık görevlere uygun değildir. Ancak daha büyük modellere göre düşük gecikme süresi ve daha yüksek verimlilikle bunu telafi eder.
Mountain View merkezli teknoloji devi, Gemini 2.0 Flash’ın artık metin ve yönlendirilebilir metinden konuşmaya (TTS) çok dilli ses ile görüntü oluşturma gibi çok modlu çıktıları desteklediğini vurguladı. Ek olarak, AI modeli aynı zamanda aracı işlevlerle de donatılmıştır. 2.0 Flash, kullanıcı bunları API aracılığıyla tanımladıktan sonra Google Arama gibi araçları, kod yürütmeyle ilgili araçları ve üçüncü taraf işlevlerini yerel olarak çağırır.
Performans konusuna gelince Google, Gemini 2.0 Flash’ın dahili testlere dayalı karşılaştırma puanlarını paylaştı. Massive Multitask Language Understanding (MMLU), Natural2Code, MATH ve Lisansüstü Düzeyde Google Proof Soru-Cevap (GPQA) kıyaslamalarında Gemini 1.5 Pro modelinden bile daha iyi performans gösteriyor.
Gemini kullanıcıları webin sol üst kısmında ve mobil uygulama arayüzünün üst kısmında yer alan model seçici seçeneğinden deneysel modeli seçebilirler. Bunun dışında AI modeli, Google AI Studio ve Vertex AI’deki Gemini uygulama programlama arayüzü (API) aracılığıyla da mevcuttur. Model, multimodal giriş ve metin çıkışıyla geliştiricilerin kullanımına sunulacak. Görüntü ve metinden konuşmaya yetenekleri şu anda yalnızca Google’ın erken erişim ortaklarının kullanımına açıktır.