Google, Salı günü Kaliforniya, Mountain View’da Made By Google etkinliğinde Gemini Live’ı başlattı. Bu özellik, Google’ın en son büyük dil modeliyle desteklenen bir AI sohbet robotuyla, yazılı olmayan, yarı doğal bir konuşma yapmanızı sağlar. TechCrunch bunu ilk elden test etmek için oradaydı.

Gemini Live, Google’ın OpenAI’nin Gelişmiş Ses Modu’na cevabıdır, ChatGPT’nin sınırlı bir alfa testinde güncel olan neredeyse aynı özelliğidir. OpenAI, özelliği ilk olarak göstererek Google’ı alt etmiş olsa da, Google nihai özelliği ilk yayınlayandır.

Deneyimime göre, bu düşük gecikmeli, sözlü özellikler ChatGPT ile mesajlaşmaktan veya hatta Siri veya Alexa ile konuşmaktan çok daha doğal hissettiriyor. Gemini Live’ın sorulara iki saniyeden kısa sürede yanıt verdiğini ve kesintiye uğradığında oldukça hızlı bir şekilde dönebildiğini gördüm. Gemini Live mükemmel değil, ancak şimdiye kadar gördüğüm eller serbest telefonunuzu kullanmanın en iyi yolu.

Nasıl çalışır?

Gemini Live ile konuşmadan önce, özellik OpenAI’daki sadece üç sese kıyasla 10 ses arasından seçim yapmanıza olanak tanıyor. Google her birini oluşturmak için seslendirme sanatçılarıyla çalıştı. Oradaki çeşitliliği takdir ettim ve her birinin kulağa çok insansı geldiğini buldum.

Bir örnekte, bir Google ürün müdürü Gemini Live’dan Mountain View yakınlarında açık hava alanları ve oyun alanları olan aile dostu şarap imalathanelerini bulmasını sözlü olarak istedi, böylece çocuklar da potansiyel olarak gelebilirdi. Bu, Siri’ye veya açıkçası Google Arama’ya soracağımdan çok daha karmaşık bir görevdi, ancak Gemini kriterleri karşılayan bir yeri başarıyla önerdi: Saratoga’daki Cooper-Garrod Vineyards.

Bununla birlikte, Gemini Live arzulananın biraz gerisinde kalıyor. O üzüm bağından sözde “10 dakika uzaklıkta” olan Henry İlkokulu Oyun Alanı adlı yakındaki bir oyun alanını halüsinasyon gibi görüyordu. Saratoga’da yakınlarda başka oyun alanları da var, ancak en yakın Henry İlkokulu oradan iki saatten fazla sürüş mesafesinde. Redwood City’de bir Henry Ford İlkokulu var, ancak 30 dakika uzaklıkta.

Google, kullanıcıların Gemini Live’ı cümle ortasında nasıl kesebileceğini ve AI’nın hızla nasıl yön değiştireceğini göstermeyi severdi. Şirket, bunun kullanıcıların konuşmayı kontrol etmesine izin verdiğini söylüyor. Pratikte, bu özellik mükemmel çalışmıyor. Bazen Google’ın proje yöneticileri ve Gemini Live birbirlerinin sözünü kesiyordu ve AI söylenenleri anlamıyor gibi görünüyordu.

Özellikle, Google, ürün müdürü Leland Rechis’e göre Gemini Live’ın sağladığı 10 sesin dışında herhangi bir sesi söylemesine veya taklit etmesine izin vermiyor. Şirket muhtemelen bunu telif hakkı yasalarıyla çatışmaktan kaçınmak için yapıyor. Dahası, Rechis, Google’ın Gemini Live’ın bir kullanıcının sesindeki duygusal tonlamayı anlamasını sağlamaya odaklanmadığını söyledi – OpenAI’nin demosu sırasında övdüğü bir şey.

Genel olarak, özellik basit Google Arama’da olduğundan daha doğal bir şekilde bir konuya derinlemesine dalmanın harika bir yolu gibi görünüyor. Google, Gemini Live’ın şirketin Google I/O sırasında tanıttığı tamamen çok modlu AI modeli olan Project Astra’ya giden yolda bir adım olduğunu belirtiyor. Şimdilik, Gemini Live yalnızca sesli görüşmeler yapabiliyor, ancak Google gelecekte gerçek zamanlı video anlayışını eklemek istiyor.



genel-24