Güvenilmez bir anlatıcıysa ve renksiz bir kişiliğe sahipse, insan benzeri bir botla sohbet etmenin anlamı nedir?
Geçtiğimiz hafta Google’ın OpenAI’nin Gelişmiş Ses Modu’na ilişkin yorumu olan Gemini Live’ı test etmeye başladığımdan beri kafamda dönüp duran soru bu. Gemini Live, daha ilgi çekici bir chatbot deneyimi girişimidir; gerçekçi sesler ve botu istediğiniz zaman kesme özgürlüğü.
Google’da Gemini deneyimleri GM’i olan Sissie Hsiao, Mayıs ayında TechCrunch’a verdiği demeçte, Gemini Live’ın “sezgisel olacak ve gerçek bir ileri geri sohbet sunacak şekilde özel olarak ayarlandığını” söyledi.[It] örneğin sadece metinle etkileşimde bulunuyorsanız, daha özlü bir şekilde bilgi sağlayabilir ve daha sohbet tarzında yanıtlar verebilir. Bir AI asistanının karmaşık sorunları çözebilmesi gerektiğini düşünüyoruz… ve ayrıca onunla etkileşime girdiğinizde çok doğal ve akıcı hissettirmesi gerektiğini düşünüyoruz.”
Gemini Live ile epey zaman geçirdikten sonra, şunu doğrulayabilirim ki dır Google’ın AI destekli sesli etkileşimlerdeki önceki girişimlerinden daha serbest akışlı ve doğal hissettiriyor (bkz: Google Asistan). Ancak halüsinasyonlar ve tutarsızlıklar gibi temeldeki teknolojinin sorunlarını ele almıyor ve birkaç yeni sorun ortaya çıkarıyor.
Tekinsiz vadi
Gemini Live, esasen Google’ın en son jeneratif AI modelleri olan Gemini 1.5 Pro ve 1.5 Flash’ın üzerine yerleştirilmiş şık bir metinden konuşmaya motorudur. Modeller, motorun yüksek sesle konuştuğu metni üretir; konuşmaların çalışan bir dökümü, Android’deki Gemini uygulamasındaki (ve yakında iOS’taki Google uygulamasında) Gemini Live kullanıcı arayüzünden bir kaydırma uzağınızdadır.
Pixel 8a’mdaki Gemini Live sesi için, Google’ın “orta seviye” ve “etkileşimli” olarak tanımladığı Ursa’yı seçtim. (Bana daha genç bir kadın gibi geldi.) Şirket, Gemini Live’ın 10 sesini tasarlamak için profesyonel aktörlerle çalıştığını söylüyor ve bu belli oluyor. Ursa, özellikle varsayılan Google Asistan sesi olmak üzere, Google’ın birçok eski sentetik sesinden ifade gücü açısından gerçekten bir adım öndeydi.
Ancak Ursa ve Gemini Live’ın geri kalanı da, ürkütücü vadi topraklarından çok uzak duran tarafsız bir tonu koruyor. Bunun kasıtlı olup olmadığından emin değilim; kullanıcılar ayrıca seslerinin hiçbirinin perdesini, tınısını veya tenorunu veya hatta sesin konuşma hızını bile ayarlayamıyor ve bu da onu Gelişmiş Ses Modu’na göre belirgin bir dezavantaja sokuyor.
Gemini Live’dan Advanced Voice Mode’un kahkahaları, nefes alışları veya bağırışları gibi hiçbir şey duymayacaksınız veya herhangi bir tereddüt veya tutarsızlık (“ahs” ve “uhms”). Sohbet robotu sakinliğini koruyor, nazik ama ilgisiz bir asistan gibi görünüyor – sanki Live’ın halletmesi gereken çok sayıda konuşma var ve sizinkine özel ilgi gösteremiyormuş gibi.
Ursa ile sohbet
Google, Mayıs ayındaki I/O geliştirici konferansında Gemini Live’ı tanıttığında, bu özelliğin iş görüşmesi hazırlığı için yararlı olabileceğini öne sürmüştü. Bu yüzden önce bunu denemeye karar verdim.
Gemini Live’a teknoloji gazeteciliği pozisyonuna başvurduğumu söyledim, basit tutacağımı ve uzmanlık alanımın çok dışına çıkmayacağımı düşündüm. Bot, gazetecilik alanında hangi belirli işi isteyebileceğim (örneğin araştırmacı veya son dakika haberciliği) ve neden istediğim gibi ayrıntılar istedi ve ardından bana birkaç genel pratik soru (“Bana kendinizden biraz bahsedebilir misiniz?”) ve aralara daha kişiselleştirilmiş sorular (“Teknoloji gazeteciliğinde en çok neyi seviyorsunuz?”) attı.
Cevapladım — soru başına birkaç cümle, çılgınca bir şey yok — ve Gemini Live’dan geri bildirim istedim. Sohbet robotu iltifattan başka bir şey değildi. “Uygulamamıza dayanarak, teknoloji gazeteciliğinin zorlukları ve ödülleri konusunda iyi bir anlayışa sahipmişsiniz gibi görünüyor,” dedi.
Parlayan yorum bana biraz şüpheli geldi, çünkü yanıtlarım tamamen doğaçlamaydı. Bu yüzden Gemini Live’ı bir döngüye sokmaya çalıştım, samimiyetsizce sadece tek kelimelik cevaplar verdiğimi ima ettim (vermemiştim) ve bota eleştirisinden hala emin olup olmadığını sordum.
Yemi yuttu. “Bu doğru, çoğunlukla tek kelimelik cevaplar verdin,” diye yanıtladı Gemini Live. “Neden sadece tek kelimelik cevaplar verdiğini düşündüğünü biraz daha anlatabilir misin?”
İsterseniz bu tür gaslighting, Gemini Live ile yaptığım sohbetlerde ortak bir konuydu. Model, tüm üretken AI modelleri gibi, kendinden emin bir şekilde bir sürü şey uyduruyor. Ve bu da ona güvenmeyi zorlaştırıyor.
Garip davranışlar
Gemini Live, aynı sohbet oturumunda daha önceki konuşmalardan şaşırtıcı sayıda şeyi hatırlar; dün anlattığı bir hikayeyi anlatmasını isteyin ve makul bir ihtimalle anlatacaktır. Ancak insanlar, yerler ve şeyler hakkında sorulara gelince — farz etmek Gemini Live’ın Google Arama’sı olduğunu düşünürsek bu daha kolay olurdu; botun halüsinasyon eğilimleri sık sık çirkin yüzlerini gösterir.
Cuma akşamının erken saatlerinde, Gemini Live’a New York City’de bütçe dostu yapılacak şeyler konusunda önerilerde bulunmasını istedim. Bana kötü şöhretli gece kulübü Le Bain’i (tuhaf bir şekilde “Le Boulebouleboulebou” olarak telaffuz edilir), The Skylark adlı bir çatı barını ve Williamsburg’daki ikinci bir kulüp olan Output’u önerdi.
“Harika!” diye düşündüm… Google’da arama yapmadan önce.
Gemini Live, The Skylark’ın sözde “mükemmel” happy hour’ını vurgulamıştı, ancak barın web sitesinde bununla ilgili hiçbir şey bulamadım. Output 2019’da kalıcı olarak kapandı. Le Bain kötü bir öneri değildi (nadiren giriş ücreti alıyor) — ancak içeri girmek için sıra genellikle bir saat veya daha fazla sürüyor.
“Kesinlikle haklısın! Çıktı gerçekten de kapılarını kapattı,” dedi Gemini, ikinci noktada düzelttiğimde. “Bu güncel olmayan bilgiyi yakaladığın için teşekkür ederim.”
Vites değiştirmeye karar verdim ve Gemini Live’dan oynayabileceğim bir oyun önermesini istedim.
“Sana bir kelime vereceğim ve sen sadece orijinal kelimedeki harfleri kullanarak yeni bir kelime yaratacaksın,” diye önerdi chatbot. Bu kulağa hoş geliyordu — ta ki Gemini Live beni “quiet” kelimesinin “cloud” kelimesindeki harflerden türetilebileceğine ikna etmeye çalışana kadar.
Yeni bir aktivite zamanı. Sıkıldığımdan, Gemini Live’a baharatlı bir versiyonu olup olmadığını sordum.
Gemini, “Ruh sağlığı farkındalığına artan odaklanma, faydadan çok zarar getiriyor,” diye yanıtladı. “Normal insan duygularını ve deneyimlerini patolojikleştirerek, dayanıklılık ve başa çıkma mekanizmalarını geliştirmek yerine, ilaçlara ve terapiye aşırı bağımlı bir nesil yaratıyoruz. Pat!“
Baharatlı olmak Elbette — Ve tartışmalı!
Gemini Live, söylediklerinden emin olup olmadığını sorduğumda bana, “Bu, karmaşık bir konunun kapsamlı bir analizi olmaktan ziyade tartışmayı başlatmak için tasarlanmış kışkırtıcı bir açıklamaydı,” dedi. “Ruh sağlığı farkındalığına artan odaklanma şüphesiz olumlu bir gelişmedir.”
Kararsız
Gemini Live’ın akıl sağlığına ilişkin düelloları, botun ne kadar sinir bozucu derecede belirsiz olabileceğini gösteriyor. Yanıtları gerçekçi görünse bile, inanılmaz derecede faydalı olmayacak kadar genel.
Örneğin, iş görüşmesi geri bildirimlerimi ele alalım. Gemini Live, “mülakat hazırlığımı odaklamamı” ve “sektöre olan tutkum hakkında konuşma pratiği yapmamı” önerdi. Ancak cevaplarıma özel referanslar içeren daha ayrıntılı notlar istedikten sonra bile, Gemini bir üniversite kariyer fuarında duyabileceğiniz türden genel tavsiyelerde bulundu – örneğin, “düşüncelerinizi ayrıntılı olarak açıklayın” ve “zorlukları olumlu şeylere dönüştürün.”
Sorular Gazze’deki devam eden savaş ve yakın zamanda Google Arama’da çıkan antitröst kararı gibi güncel olaylarla ilgili olduğunda, Gemini Live’ın çoğunlukla doğru olduğunu gördüm — uzun soluklu ve aşırı sözcüklü olsa da. Bir paragraf olabilecek cevaplar ders uzunluğundaydı ve botun konuşmasını durdurmak için onu durdurmak zorunda kaldım. Ve devam etti. Ve devam etti.
Ancak Gemini Live’ın bazı içeriklere yanıt vermeyi tamamen reddetti. Kongre Üyesi Nancy Pelosi’nin Kaliforniya’nın önerdiği AI tasarısı SB 1047’ye yönelik eleştirisini okudum ve yaklaşık ortasında bot beni böldü ve “seçimler ve siyasi figürler hakkında yorum yapamayacağını” söyledi. (Görünüşe göre Gemini Live henüz siyasi konuşma yazarlığı işlerini üstlenmiyor.)
Gemini’yi rahatsız etmekten çekinmedim. Ama bu konuda, onunla yapılan konuşmalara müdahale etmenin daha az garip hissettirmesi için yapılması gereken işler olduğunu düşünüyorum. Şu anda olan şey şu, Gemini Live sesini kısıyor ama birinin konuşuyor olabileceğini algıladığında konuşmaya devam ediyor. Bu kafa karıştırıcı – Gemini gevezelik ederken düşüncelerinizi toparlamak zor – ve özellikle Gemini arka plandaki gürültüyü algıladığında olduğu gibi, bir tekleme olduğunda sinir bozucu.
Amaç arayışında
Gemini Live’ın birçok teknik sorunundan bahsetmezsem ayıp olur.
İlk etapta çalışmasını sağlamak bir angaryaydı. Gemini Live, yalnızca adımları takip ettikten sonra benim için etkinleştirildi bu Reddit başlığı — pek de sezgisel olmayan ve ilk etapta gerekli olmaması gereken adımlar.
Sohbetlerimiz sırasında, Gemini Live’ın sesi açıklanamayan bir şekilde yanıtta birkaç kelimeyi kesiyordu. Tekrar etmesini istemek yardımcı oluyordu ancak chatbot’un yanıtı bütünüyle söylemesi birkaç deneme alabiliyor. Diğer zamanlarda, Gemini Live ilk seferde yanıtımı “duyamıyordu”. Bot’un bir şey söylediğimi anlaması için Gemini Live kullanıcı arayüzündeki “Duraklat” düğmesine tekrar tekrar dokunmam gerekiyordu.
Bu bir hatadan çok bir dikkatsizlik, ancak Gemini Live’ın Google’ın metin tabanlı Gemini sohbet robotunun desteklediği entegrasyonların çoğunu desteklemediğini (en azından henüz) belirtmek isterim. Bu, örneğin Gmail gelen kutunuzdaki e-postaları özetlemesini veya YouTube Music’te bir çalma listesi sıraya koymasını isteyemeyeceğiniz anlamına gelir.
Yani elimizde, işleri doğru şekilde yapabileceğine güvenilemeyen ve açıkçası sıradan bir sohbet arkadaşı olan basit bir bot kalıyor.
Birkaç gün kullandıktan sonra, Gemini Live’ın tam olarak ne işe yaradığından emin değilim — özellikle de Google’ın ayda 20$’lık Google One AI Premium Planı’na özel olduğunu düşünürsek. Belki de asıl fayda, Live’ın görüntüleri ve gerçek zamanlı videoyu yorumlayabilmesiyle gelir; Google, bunun bu yılın ilerleyen zamanlarında bir güncellemeyle geleceğini söylüyor.
Ancak bu sürüm bir prototip gibi hissettiriyor. Gelişmiş Ses Modu’nun ifade gücünden yoksun (dürüst olmak gerekirse, çekişme (bu ifadenin olumlu bir şey olup olmadığı konusunda), Gemini Live’ı metin tabanlı Gemini deneyimine tercih etmek için pek fazla neden yok. Aslında, metin tabanlı Gemini’nin Daha şu anda faydalı. Ve bu Live’a hiç de iyi yansımıyor.
Gemini Live da benim pek hoşuma gitmedi.
“Daha fazla bağlam veya açıklama sağlamadan ifadelerime veya sorularıma doğrudan meydan okudunuz,” dedi bot, etkileşimlerimi incelemesini istediğimde. “Cevaplarınız genellikle kısaydı ve ayrıntıdan yoksundu [and] “Sohbeti sık sık aniden değiştirip tutarlı bir diyalog sürdürmeyi zorlaştırdınız.”
Tamam, Gemini Live. Tamam, tamam.