Google bu hafta Gemini’yi duyurdu. Gemini ChatGPT ile yarışacak ve çok modlu bir yapay zekadır; yani metin, resimler, ses, video ve kodla etkileşime girebilir. Gemini etrafındaki heyecan daha sonra yüksekti Google G/Çancak artık AI modelinin perdesinin arkasına bir göz atmaya başlıyoruz ve bu pek hoş değil.
Gemini umut verici olsa da Google’ın paylaştığı uygulamalı video sahte olduğundan hepimizin yeni araca yönelik beklentileri yumuşatması gerekiyor. Bu güçlü bir kelime gibi görünebilir, ancak Bloomberg’den Parmy Olson, Google’ın videosunun Gemini’nin gerçek dünyada nasıl çalışacağını temsil etmediğini gösterdi.
Google’ın videoyu nasıl yaptığına geçmeden önce, klibin tamamen uydurma olmadığını açıklığa kavuşturmak istiyorum. Google, nesneleri tanımlamak ve görüntülerde neler olduğunu anlamak için Gemini’yi kullandı. Ancak Google’ın yapmadığı şey, Gemin’i kullanırken yaşayacağınız gerçek deneyimi gösteren gerçek bir uygulamalı video oluşturmaktı.
Bir ürün için uygulamalı bir video gördüğünüzde, gerçek dünyadaki kullanımı yansıtan içerik beklersiniz. Örneğin, bir YouTube incelemecisi yeni bir VR başlığıyla uygulamalı çalışma yaptıysa, bu videonun gerçek oynanışı, görüş alanının nasıl göründüğünü ve kontrollerin ne kadar iyi çalıştığını göstermesini istersiniz. Benzer şekilde, telefonla yapılan uygulamalı bir uygulama, telefonun hızlandırılıp bir araya getirilmesi değil, gerçekte nasıl çalıştığını göstermelidir.
Ürün demolarının hepsi olmasa da çoğunun bir araya getirildiğini ve öne çıkardıkları ürünlerin herhangi bir kusurunu göstermediğini iddia edebilirsiniz. Ama dedikleri gibi iki yanlış bir doğru etmez.
Google Gemini’yi uygulamalı olarak nasıl taklit etti?
Videoda bir kullanıcı, topu bardağa saklamaya çalışmak, ördek çizmek ve haritayla oyun oynamak gibi çeşitli görevleri gerçekleştiriyor. Klip boyunca Gemini, olup bitenleri gerçek zamanlı olarak anlatıyor ve her şeyi anında çözüyor. Ancak videoda görmediğiniz şey, Google’ın Gemini demosunu oluşturmak için metin istemleri kullanması ve bağlam sağlamasıdır.
Google, yakalanan içerikteki sabit görüntü karelerine dayanarak Gemini’ye istemler verdi. Şirket daha sonra AI modelini metinle yönlendirdi. Daha sonra anlatım sonradan eklendi.
Aslında videoda gösterilen yönlendirmeler Gemin’e verilen yönlendirmeler bile değil. Videoda Gemini’nin masaya yerleştirilmiş üç fincan gördüğü ve kullanıcının oyun oynamaya çalıştığını hemen anladığı görülüyor. Gerçekte Google, Gemini’ye oyunun nasıl oynanacağını öğretti. Daha sonra Gemini’nin çok özel talimatları takip etme yeteneği test edildi. Bu koşullar altında bile İkizler bu görevde mükemmel değildir.
” Elbette, bu mücadeleyi her zaman doğru şekilde sonuçlandırmayacaktır. Bazen sahte çıkış hareketi (iki boş bardağı takas etmek) durumu tetikliyor gibi görünse de bazen bu da olur. Ancak bunun gibi basit yönlendirmeler, işi gerçekten eğlenceli hale getiriyor. Gemini’yi hızla test edin” diye açıkladı Google.
Google’ın Gemini için hazırladığı uygulamalı videoda el çabukluğuyla ilgili bir numara kullanılması oldukça yerinde.
Google sahte Gemini videosunu savundu
“İkizler ile Uygulamalı” videomuza olan ilgiyi görmek gerçekten çok mutlu. Dün geliştirici blogumuzda Gemini’nin bunu oluşturmak için nasıl kullanıldığını ayrıntılı olarak açıklamıştık. https://t.co/50gjMkaVc0Gemini’ye farklı yöntemlerden oluşan diziler verdik (bu durumda görüntü ve metin) ve yanıt vermesini sağladık… pic.twitter.com/Beba5M5dHP7 Aralık 2023
Google Araştırma ve Derin Öğrenmeden Sorumlu Başkan Yardımcısı Oriol Vinyals, X’teki videoyu savundu.
“Videodaki tüm kullanıcı istemleri ve çıktıları gerçektir ve kısa olması açısından kısaltılmıştır. Video, çok modlu kullanıcının Gemini ile neler yaşadığını göstermektedir. şöyle görünebilir. Bunu geliştiricilere ilham vermek için yaptık” dedi Vinyals (vurgu eklenmiştir).
Bunu söylemek zorunda kaldığıma şaşırdım. Bir şeyin “nasıl görünebileceği” uygulamalı bir video değildir.
Google bir bağlantıya bağlantı verdi blog pozuŞirketin içeriği nasıl oluşturduğunu açıklayan videosunda. Bu blog yazısı, Google’ın Gemini’nin bu şekilde tepki vermesini sağlamak için çeşitli yönlendirmeler ve ipuçları kullandığı gerçeğini gizlemiyor. Ancak video açıklamasının “…devamı” bölümünün altındaki blog yazısı bağlantısı, videoda neler olup bittiğini açıklamakla aynı şey değildir. Kesinlikle “uygulamalı” ifadesinin yanlış kullanımını düzeltmez.
Biraz daha şeffaflığa ihtiyacımız var
Google’ın bunu neden yaptığını anlıyorum. Amazon bu yılın başlarında Echo Show 8’i gerçek bir canlı demoyla göstermeye çalıştı ama pek başarılı olmadı. Cihazı “hey Alexa” diyerek aramak yavaş yanıtlara neden oldu. Performans da mükemmel değildi, bu da cihazı zayıf bir ışık altında bıraktı.
Ancak ben, bir ürünün gerçek bir canlı demosunun o ürünü kötü göstermesine neden oluyorsa insanların bunu bilmesi gerektiğini düşünüyorum. Bir oyun fragmanı harika görünüyorsa ve oyun berbatsa, insanlar yanıltılmaktan dolayı üzülürler. Google’ın uygulamalı videosunun ne kadar farklı olduğunu anlamıyorum.