Gartner başkan yardımcısı analisti Chirag Dekate, OpenAI’nin çok modlu geniş dil modelinden (LLM) etkilendiğini ancak şirketin üretken yapay zeka teknolojisinde sektör lideri olarak daha önceki statüsünün aksine açıkça rakiplerini yakalamaya çalıştığını söyledi. .

Dekate, “Artık GPT’nin multimodal çağa girdiğini görmeye başlıyorsunuz” dedi. “Fakat Google’ın üç ay önce, bir milyon jetonluk bağlam penceresine sahip yerel multimodal modeli olan Gemini 1.5’i duyurduğunda bulunduğu noktaya yetişmeye çalışıyorlar.”

Yine de GPT-4o ve ona eşlik eden ChatGPT sohbet robotunun gösterdiği yetenekler, bir doğal dil işleme motoru için etkileyicidir. Kullanıcıların konuşmayı kesebildiği ve yeni veya değiştirilmiş sorgular başlatabildiği daha iyi bir konuşma yeteneği sergiledi ve ayrıca 50 dilde uzmanlaştı. Sahnedeki canlı bir gösteride Ses Modu, İtalyanca konuşan Murati ile İngilizce konuşan OpenAI’nin eğitim sonrası başkanı Barret Zoph arasında karşılıklı çeviri yapabildi.

Canlı bir gösteri sırasında Zoph, ChatGPT telefonunun kamera merceğinden izlerken kağıt üzerine cebirsel bir denklem de yazdı. Zoph daha sonra sohbet robotundan çözüm konusunda onunla konuşmasını istedi.

Ses tanıma ve konuşma etkileşimleri son derece insana benziyor olsa da, etkileşimli botta, konuşmalar sırasında kesildiği ve birkaç dakika sonra işleri yeniden başlattığı gözle görülür aksaklıklar da vardı.

Daha sonra chatbottan yatmadan önce bir hikaye anlatması istendi. Sunum yapanlar, sohbet robotunu yarıda kesip ses tonlamasına daha fazla duygu katmasını ve hatta hikayenin bilgisayar benzeri bir yorumunu değiştirmesini sağlayabildiler.



genel-13