Google’ın yeni Gemini AI modeli, dünkü büyük çıkışının ardından karışık tepkiler alıyor, ancak kullanıcılar, Gemini’nin en etkileyici demosunun büyük ölçüde sahte olduğunu öğrendikten sonra şirketin teknolojisine veya bütünlüğüne daha az güvenebilirler.
adlı bir video “Gemini ile Uygulamalı Çalışma: Çok modlu yapay zeka ile etkileşim kurma” Geçen gün bir milyon izlenmeye ulaştı ve bunun nedenini anlamak zor değil. Etkileyici demo, “Gemini ile en sevdiğimiz etkileşimlerden bazılarını vurguluyor” ve multimodal modelin (yani, dili ve görsel anlayışı anlayıp karıştırdığını) nasıl esnek olabileceğini ve çeşitli girdilere duyarlı olabileceğini gösteriyor.
Başlangıç olarak, bir ördeğin dalgalı bir çizgiden tamamen renkli bir çizime doğru evrimleşen bir taslağını anlatıyor, ardından oyuncak mavi bir ördek gördüğünde şaşkınlık ortaya koyuyor (“Vaklıyor!”). Daha sonra o oyuncakla ilgili çeşitli sesli sorulara yanıt veriyor ve ardından demo, bardak değiştirme oyununda topu takip etmek, gölge kukla hareketlerini tanımak, gezegen çizimlerini yeniden düzenlemek vb. gibi diğer gösteriş hareketlerine geçiyor.
Her ne kadar videoda “gecikme azaltıldı ve Gemini çıktıları kısaltıldı” uyarısı yapılsa da hepsi oldukça duyarlı. Yani burada bir tereddütü, şurada da çok uzun bir cevabı atlıyorlar, anladınız. Sonuç olarak, çok modlu anlayış alanında oldukça akıllara durgunluk veren bir güç gösterisiydi. Uygulamalı videoyu izlediğimde, Google’ın bir yarışmacı gönderebileceğine dair şüphelerim darbe aldı.
Tek bir sorun var: video gerçek değil. “Demoyu, Gemini’nin yeteneklerini çok çeşitli zorluklarla test etmek için görüntü alarak oluşturduk. Daha sonra Gemini’ye görüntülerden hareketsiz görüntü kareleri kullanmasını ve metin yoluyla yönlendirme yapmasını sağladık.” (Bloomberg’deki Parmy Olsen ilk rapor veren Tutarsızlık.)
Her ne kadar Google’ın videoda gösterdiği şeyleri bir nevi yapsa da, canlı olarak ve ima ettikleri şekilde yapmadı ve belki de yapamadı. Gerçekte bu, etkileşimin gerçekte nasıl olduğunu yanlış anlatmak için açıkça seçilmiş ve kısaltılmış, hareketsiz görüntülerden oluşan, dikkatle ayarlanmış bir dizi metin istemiydi. Gerçek istemlerden ve yanıtlardan bazılarını şurada görebilirsiniz: ilgili bir blog yazısı – Adil olmak gerekirse, video açıklamasında “…more” ifadesinin altında da olsa bağlantı verilmiştir.
Bir yandan Gemini gerçekten de videoda gösterilen yanıtları vermiş gibi görünüyor. Ve kim modele önbelleğini temizlemesini söylemek gibi bazı temizlik komutlarını görmek ister? Ancak izleyiciler modelle olan etkileşimin hızı, doğruluğu ve temel modu konusunda yanıltılıyor.
Örneğin videonun 2:45’inde sessizce bir dizi hareket yapan bir el gösteriliyor. İkizler hemen yanıt verir: “Ne yaptığını biliyorum! Taş, Kağıt, Makas oynuyorsun!”
Ancak yeteneğin belgelenmesindeki ilk şey, modelin bireysel hareketleri görmeye dayalı olarak nasıl akıl yürütmediğidir. Üç hareketin de aynı anda gösterilmesi ve kendisine şu soru yöneltilmesi gerekir: “Ne yaptığımı sanıyorsun? İpucu: bu bir oyun.” “Taş, kağıt, makas oynuyorsun” diye yanıt verir.
Benzerliğe rağmen bunlar aynı etkileşim gibi gelmiyor. Temel olarak farklı etkileşimler gibi geliyorlar; biri soyut bir fikri anında yakalayan sezgisel, sözsüz bir değerlendirme, diğeri ise yetenekler kadar sınırlamaları da gösteren, tasarlanmış ve yoğun şekilde ima edilmiş bir etkileşim. İkizler ikincisini yaptı, ilkini değil. Videoda gösterilen “etkileşim” gerçekleşmedi.
Daha sonra yüzeye Güneş, Satürn ve Dünya’nın karalamalarını içeren üç yapışkan not yerleştirilir. “Bu doğru sıralama mı?” İkizler hayır diyor, Güneş’e, Dünya’ya, Satürn’e gidiyor. Doğru! Ancak asıl (yine yazılı) yönlendirmede soru şudur: “Bu doğru sıralama mı?” Güneşe olan mesafeyi düşünün ve gerekçenizi açıklayın.”
İkizler doğru anladı mı? Yoksa yanlış mı anladı ve videoya koyabilecekleri bir cevap üretmek için biraz yardıma mı ihtiyaç duydu? Gezegenleri tanıdı mı, yoksa orada da yardıma mı ihtiyacı vardı?
Bu örnekler size önemsiz görünebilir veya gelmeyebilir. Sonuçta, el hareketlerini bir oyun olarak bu kadar hızlı bir şekilde tanımak, multimodal bir model için gerçekten etkileyici! Yarı bitmiş bir resmin ördek olup olmadığına karar vermek de öyle! Ancak artık blog yazısında ördek dizisine ilişkin bir açıklama bulunmadığından, bu etkileşimin doğruluğundan da şüphe etmeye başlıyorum.
Şimdi, video başlangıçta “Bu, araştırmacılarımızın test ettiği etkileşimlerin stilize edilmiş bir temsilidir” deseydi kimse gözünü kırpmazdı; bunun gibi videoların yarı gerçek, yarı ilham verici olmasını bekliyoruz.
Ancak videonun adı “İkizler ile Uygulamalı” ve “en sevdiğimiz etkileşimleri” gösterdiğini söylediklerinde, gördüğümüz etkileşimlerin dolaylı olduğu ima ediliyor. onlar etkileşimler. Onlar değildi. Bazen daha fazla dahil oluyorlardı; bazen tamamen farklı oluyorlardı; bazen aslında hiç olmamış gibi görünürler. Hangi model olduğu bile söylenmedi; insanların şu anda kullanabileceği Gemini Pro mu, yoksa (daha büyük olasılıkla) gelecek yıl piyasaya sürülmesi planlanan Ultra versiyonu mu?
Google’ın bize sadece lezzetli bir video verdiğini, bunu bu şekilde tanımladıklarını mı varsaymalıydık? Belki o zaman şunu varsaymalıyız Tümü Google AI demolarındaki yetenekler, etki yaratmak için abartılıyor. Başlığa bu videonun “sahte” olduğunu yazıyorum. İlk başta bu sert dilin haklı olup olmadığından emin değildim. Ancak bu video kesinlikle gerçeği yansıtmıyor. O sahtedir.
Google, videonun “Gemini’den gerçek çıktılar gösterdiğini” söylüyor ki bu doğru ve “demoda birkaç düzenleme yaptık (bu konuda açık ve şeffaf davrandık)” ki bu doğru değil. Bu bir demo değil – aslında değil – ve video, onu bilgilendirmek için oluşturulanlardan çok farklı etkileşimler gösteriyor.
Belki de gelecek hafta Gemini Pro’lu AI Studio denemeler için kullanıma sunulduğunda karga yiyeceğim. Ve Gemini, OpenAI ve diğerlerine gerçekten rakip olabilecek güçlü bir yapay zeka platformuna dönüşebilir. Ama Google’ın burada yaptığı şey kuyuyu zehirlemek. Modellerinin artık bir şeyler yaptığını iddia eden şirkete nasıl güvenilebilir? Zaten rekabetin gerisinde topallıyorlardı. Google az önce kendini diğer ayağından vurmuş olabilir.