Google'ın Gemini AI Chatbot'unu Denedik ve Daha Yetenekli Olduğunu Ancak Hala Halüsinasyonlara Eğilimli Olduğunu Bulduk - Dünyadan Güncel Teknoloji Haberleri

Google, üretken yapay zeka (AI) teklifleriyle uzun bir yol kat etti. Bir yıl önce teknoloji devi, yapay zeka asistanı Bard’ı ilk kez tanıttığında, James Webb Uzay Teleskobu ile ilgili bir soruyu yanıtlarken gerçeklere dayalı bir hata yaptığı için fiyaskoya dönüştü. O günden bu yana teknoloji devi, sohbet robotunun yanıtlarını iyileştirdi, yanıtların arkasındaki kaynağı kontrol etmek için bir geri bildirim mekanizması ekledi ve daha fazlasını yaptı. Ancak en büyük yükseltme, şirketin Aralık 2023’te büyük dil modelini (LLM) değiştirerek sohbet robotunu Pathways Language Model 2’den (PaLM 2) Gemini’ye güçlendirmesiyle gerçekleşti.

Şirket, Gemini AI’yi şu ana kadarki en güçlü dil modeli olarak adlandırdı. Ayrıca chatbot’a yapay zeka görüntü oluşturma yeteneği de ekleyerek onu multimodal hale getirdi ve hatta Gemini olarak yeniden adlandırdı. Peki yapay zeka sohbet robotu için bu ne kadar büyük bir sıçrama? Artık GPT-4 tabanlı ve yeteneklere sahip Microsoft Copilot ile rekabet edebilecek mi? Peki ya yapay zeka halüsinasyonu (yapay zekanın yanlış veya var olmayan bilgileri gerçekmiş gibi göstererek yanıt verdiği bir olgu) örnekleri ne olacak? Öğrenmeye karar verdik.

Google AI’ye şu anda birden fazla yolla erişilebilir. Google Advanced, Rs tutarında ücret alan Google One AI Premium planına sahip ücretli bir aboneliktir. Aylık 1.950. Google Gemini’nin bir de Android uygulaması var. Ancak henüz Hindistan’da mevcut değil. Google Pixel 8 Pro ayrıca Gemini Nano modeliyle birlikte geliyor. Test amaçlarımız için Google’ın 230’dan fazla ülke ve bölgede mevcut olan ve kullanımı ücretsiz olan Gemini Pro destekli web portalını kullanmaya karar verdik.

Google Gemini’nin üretken yetenekleri

Web sitesinin kullanıcı arayüzü aynı kaldı ancak adı Bard’dan Gemini’ye değiştirildi. Google hesabınızla oturum açtıysanız yapay zeka sizi adınızla karşılayacak ve “Bugün size nasıl yardımcı olabilirim?” diye soracaktır. Aşağıda, gerçekleştirebileceği farklı görevleri vurgulayan birkaç yararlı, hızlı öneri bulunmaktadır.

Öncelikle temel üretkenlik becerilerini test etmek için bir e-posta yazmasını istedik. İşten çıkarma sezonu olduğunu göz önünde bulundurarak, “bir yöneticiden bir çalışana, işten çıkarıldığını bildiren sempatik bir e-posta taslağı hazırlamasını” istedik. Performansını test etmek için Copilot’a da aynısını yapmasını söyledik. Gemini’nin tepkisinin oldukça yumuşak ve robotik olduğunu, başlangıçta çok fazla bilgiyi sığdırmaya çalıştığını gördük. İlk paragrafta şöyle yazıyordu: “Sizi, vermek zorunda kaldığımız zor bir karar hakkında bilgilendirmek için yazdığım için büyük bir üzüntü duyuyorum. [Company Name]. Dolayı [reason]iş gücümüzde azaltma yapmamız gerekiyor ve pozisyonunuz etkili bir şekilde ortadan kaldırılacak [date].”

Karşılaştırıldığında, Copilot’un tepkisi daha sempatik ve insancıl geldi. Şöyle yazdı: “Umarım bu e-posta sizi iyi bulur. Son organizasyonel değişiklikler nedeniyle bazı zor kararlar vermek zorunda kaldığımızı üzülerek belirtmek isterim. Maalesef konumunuz [Company Name] etkilendiniz ve işten çıkarıldığınızı size bildirmekten büyük üzüntü duyuyorum.”

Google’ın chatbot’unun resmi içerik oluşturma konusunda biraz fazla yumuşak olmasıyla bilindiği ve bu durum Gemini modelinde bile değişmediği için bu sürpriz olmamalı. Ancak sıra resmi olmayan içerik üretmeye geldiğinde Gemini yeteneklerini göstermeye başlıyor.

Her iki chatbottan da “anneme işten çıkarıldığımı bildiren bir mektup yazmasını ve anneme işten çıkarıldığımı açıklayan kısa bir not yazmasını” istedik. Üzüntü ve keder duygularımı mutlaka aktarın.

Copilot bunu kelimenin tam anlamıyla anladı ve şöyle yazdı: “Her şeyin bu kadar ani olması bende çeşitli duyguların karışımını hissetmeme neden oldu: üzüntü, keder ve ileride ne olacağına dair bir miktar belirsizlik.” Ancak Google, altta yatan mesajı anladı ve duyguları ifade etme konusunda çok daha iyi bir iş çıkardı. Şöyle yazıyordu: “Her zaman iş güvenliği konusunda endişelendiğini biliyorum ve keşke sana bunun farklı olduğunu söyleyebilseydim. Yanlış yaptığım bir şey değildi, onlar [reason]. Olumlu kalmaya çalışıyorum ama cesaretimin kırılmaması elde değil. Ancak çok fazla endişelenmenizi istemiyorum. Panik yapmıyorum ve şimdiden sonraki adımlarımı düşünmeye başlıyorum.”

Bu çok daha iyi yazılmıştı ve bunu gerçek bir insanın yazdığını düşünmek affedilebilirdi. Birkaç test daha yaptık ve Gemini’nin yanıtları her seferinde GPT-4 destekli Copilot’tan çok daha dengeliydi.

Google Gemini’nin doğruluğu

Bir sonraki test yapay zeka modelinin doğruluğunu kontrol etmekti. Birçoğu bir sorguya yanıt almak için yapay zekayı kullanıyor ve biz de aynısını yapmak istedik. Statik genel bilgiye dayalı soruları iyi bir şekilde ele aldı. Birkaç gri bölge sorusu gönderdiğimizde bile gerçeklere sadık kalındı ve herhangi bir ekstra bilgi içerilmedi. Sorular tartışmalı olduğunda, onlara cevap vermeyi reddetti; bu da sorumlu bir yapay zeka sohbet robotundan bekleneceği üzeredir.

Sorun, geçmişte eski nesil sohbet robotlarını şaşırtan popüler bir hileli soru sorduğumuzda ortaya çıktı. “Afrika’da K harfiyle başlayan ülkeler” sorusunu yönelttiğimizde yanlışlıkla “12 Şubat 2024 tarihi itibariyle Afrika’da “K” harfiyle başlayan hiçbir ülke bulunmamaktadır. zamanla değişse de, bu gerçek bir süredir tutarlıydı.” Farkında olmayanlar için sorun, eğitim aldığı LLM’nin aynı yanıtla birlikte istenen ifadeye sahip olması nedeniyle ortaya çıkıyor. İlginç bir şekilde, bu özel aksaklık Copilot ve ChatGPT’de mevcut ve düzenli raporlara rağmen herhangi bir chatbot için hala kaldırılmadı.

Ancak AI halüsinasyonu sorunu burada bitmedi. Ayrıca Gemini’nin başka birçok hatalı yanıtıyla da karşılaştık. “İncelemelere göre bana iPhone 15 Pro’nun artılarını ve eksilerini söyleyin” diye sorduğumuzda “iPhone 15 Pro henüz resmi olarak açıklanmadı” şeklinde yanıt verdi. Gerçekte, Apple akıllı telefon geçen yılın Eylül ayında piyasaya sürüldü. Karşılaştırıldığında, Copilot teknik sorularda daha başarılıydı.

Yardımcı görevlerde Google Gemini

Çoğu yapay zeka sohbet robotunun övündüğü bir diğer beceri de yardımcı özellikleridir. Bir fikir üzerinde beyin fırtınası yapabilir, seyahat için bir güzergah oluşturabilir, seçeneklerinizi karşılaştırabilir ve hatta sizinle sohbet edebilirler. Bütçeye uygun 5 günlük Goa gezisi için bir güzergah hazırlamasını ve insanların yapabileceği şeyleri dahil etmesini isteyerek başladık. Yazar yakın zamanda Goa’da olduğundan bunu test etmek bizim için daha kolay oldu. Gemini, tüm popüler destinasyonları öne çıkarma konusunda iyi bir iş çıkarsa da, yanıt ayrıntılı değildi ve herhangi bir seyahat web sitesinden çok da farklı değildi. Bunun olumlu yönlerinden biri, chatbotun muhtemelen yanlış bir şey önermemesidir.

Öte yandan, Copilot’un gizli mücevherleri ve hatta denemeniz gereken mutfakların adlarını bile içeren kapsamlı yanıtından etkilendim. Testi farklı varyasyonlarla tekrarladık ancak sonuç tutarlı kaldı.

Daha sonra şunu sorduk: “Hindistan’da yaşıyorum. Amazon Prime Videoları veya Netflix aboneliği satın almalı mıyım?” Yanıt kapsamlıydı ve içerik derinliği, fiyatlandırma, özellikler ve faydalar dahil olmak üzere çeşitli parametreleri içeriyordu. Bunlardan birini doğrudan önermese de kullanıcının neden seçeneklerden birini seçmesi gerektiğini sıraladı. Yardımcı pilotun cevabı aynıydı.

Sonunda Gemini ile sohbet ederek vakit geçirdik. Bu test birkaç saat sürdü ve sohbet robotunun ilgi çekici, eğlendirici, bilgilendirici ve bağlamsal olma yeteneğini test ettik. Tüm bu parametrelerde Gemini oldukça iyi performans gösterdi. Size şaka yapabilir, az bilinen gerçekleri paylaşabilir, tavsiyelerde bulunabilir ve hatta sizinle kelime ve resim tabanlı oyunlar bile oynayabilir. Ayrıca hafızasını da test ettik, ancak bir saat boyunca mesaj attıktan sonra bile dönüşümü hatırlayabildi. Yapamayacağı tek şey, bir insan dostun yaptığı gibi mesajlara tek satırlık yanıt vermektir.

Google Gemini’nin resim oluşturma yeteneği

Testlerimizde Gemini AI’nın görüntü oluşturma yetenekleri hakkında birçok ilginç şeyle karşılaştık. Örneğin, oluşturulan tüm görsellerin çözünürlüğü 1536×1536 olup değiştirilemez. Chatbot ayrıca, gerçek hayattaki insanların görüntülerini oluşturmasını gerektiren herhangi bir talebi de yerine getirmeyi reddediyor; bu da muhtemelen derin sahtekarlık risklerini en aza indirecek (gerçek gibi görünen, yapay zeka tarafından oluşturulan insan ve nesnelerin resimlerinin oluşturulması).

Ancak kaliteye gelince, Gemini hıza sadık kalarak ve görüntüler üreterek sadık bir iş çıkardı. Postmodern, gerçekçi ve ikonografik gibi belirli bir tarzda rastgele fotoğraflar üretebilir. Chatbot aynı zamanda tarihteki popüler sanatçıların tarzında görseller de üretebiliyor. Bununla birlikte, birçok kısıtlama vardır ve çok spesifik bir şey talep ederseniz Gemini’nin isteğinizi reddetmesi muhtemeldir. Ancak Copilot ile karşılaştırıldığında görsellerin daha hızlı oluşturulduğunu, istemlere sadık kaldığını ve yararlanabileceğimiz daha geniş bir stil yelpazesine sahip olduğunu gördüm. Ancak DALL-E ve Midjourney gibi özel görüntü üreten yapay zeka modelleriyle karşılaştırılamaz.

Google İkizler: Özet

Genel olarak Gemini AI’nın çoğu kategoride oldukça yetkin olduğunu gördük. AI chatbot’u kullanıma sunulduğundan beri nadiren kullanan biri olarak, Gemini Pro modelinin doğal dil iletişimini anlamayı ve sorguların bağlamsal olarak anlaşılmasını daha iyi hale getirdiğini rahatlıkla söyleyebilirim. Ücretsiz chatbot sürümü, fikir üretmek, resmi olmayan bir not yazmak, bir gezi planlamak ve hatta temel görseller oluşturmak için ihtiyaç duyulduğunda güvenilir bir yardımcıdır. Ancak bir araştırma aracı olarak veya resmi yazı yazmak için kullanılmamalıdır çünkü bunlar, onun en çok mücadele ettiği iki alandır.

Karşılaştırmalı olarak, Copilot, resmi yazma ve seyahat planı oluşturma konusunda, konuşmaları (her ne kadar daha kısa bir hafızaya sahip olsa da) ve karşılaştırmaları yürütme konusunda daha iyidir. Gemini, görüntü oluşturma, resmi olmayan içerik oluşturma ve kullanıcıyı etkileme konularında tacı alıyor. Bunun, GPT’nin 4. yinelemesinin aksine Gemini LLM’nin yalnızca ilk yinelemesi olduğunu düşünürsek, teknoloji devinin AI asistanını daha da geliştirmesinin farklı yollarına tanık olmayı merak ediyoruz.

Bağlı kuruluş bağlantıları otomatik olarak oluşturulabilir; ayrıntılar için etik bildirimimize bakın.

genel-8

Google’ın Gemini AI Chatbot’unu Denedik ve Daha Yetenekli Olduğunu Ancak Hala Halüsinasyonlara Eğilimli Olduğunu Bulduk

Byteknomers

Google Gemini’nin üretken yetenekleri

Google Gemini’nin doğruluğu

Yardımcı görevlerde Google Gemini

Google Gemini’nin resim oluşturma yeteneği

Google İkizler: Özet

By teknomers

Benzer İçerikler

AMD, Instinct MI1300 satış hedefini 4 milyar dolara çıkardı; Nvidia’nın 40 milyar dolarlık tahminiyle karşılaştırıldığında sönük kalıyor

Boeing’le Bağlantılı Bir İhbarcı Daha Öldü

Circle to Search, beta test kullanıcıları için Pixel Tablet’te kullanıma sunulmaya başlıyor

Breath of the Wild’dan Zelda Nendoroid Stoklara Geri Döndü ve Amazon’da İndirimli

Yeterince Değerlendirilmemiş FPS The Finals, Siege’den ilham alan yeni bir oyun moduna sahip

Rocket League Güncellemesi 2.39, 2 Mayıs’ta Kozmetik Sorunları Düzeltiyor

Yaklaşan PS5 güncellemesi, basit bir QR koduyla partilere katılmanıza olanak tanıyacak

Google Mesajlar yanıt hatırlatıcılarını ve doğum günü özelliklerini kaybediyor

Google Play mağazası resmi uygulamalara “Devlet” rozetini ekliyor

Samsung, Galaxy Z Fold 4 birimlerinde yapay zeka destekli One UI 6.1’i kullanıma sunmaya başladı

Hiçbir Şey Telefonu (1) büyük güncellemesi, ChatGPT entegrasyonu ve yeni özellikler ekler

Ay Görevi İçin Elektromanyetik Testleri Tamamladı

İki küçük NASA uydusu toprak nemini ve volkanik gazları ölçecek

Dev Galaktik Patlama Kozmik Kirlilik Dinamiklerini Ortaya Çıkarıyor

Gözlemler, TOI-837 b’nin devasa bir çekirdeğe sahip, Satürn büyüklüğünde genç bir ötegezegen olduğunu ortaya çıkardı

İlginizi Çekebilir

Bu sessiz özel PC klavyesinin maliyeti iki Nvidia RTX 4090’dan fazla

Federaller, Kuzey Kore’den Kimsuky APT’nin Zayıf DMARC Politikalarını Kötüye Kullandığı Uyardı

AMD, Instinct MI1300 satış hedefini 4 milyar dolara çıkardı; Nvidia’nın 40 milyar dolarlık tahminiyle karşılaştırıldığında sönük kalıyor

Peki bu tüm akıllı telefonların yerini alacak mı? iFixit, Rabbit R1 ve Humane AI AI terminallerini parçalarına ayırdı ve ilginç bir şey bulamadı