OpenAI ve Google yeteneklerini sergiledi en yeni ve en iyi yapay zeka teknolojisi Bu hafta. Son iki yıldır teknoloji şirketleri yapay zeka modellerini daha akıllı hale getirmek için yarışıyordu ancak şimdi yeni bir odak noktası ortaya çıktı: onları çok modlu hale getirmek. OpenAI ve Google, robotik ağzı, gözleri ve kulakları arasında sorunsuz bir şekilde geçiş yapabilen yapay zekaya odaklanıyor.
Teknoloji şirketleri günlük yaşamınızda yapay zeka modellerinin en cazip formuna bahis koyarken “Multimodal” en çok konuşulan kelime haline geldi. Yapay zeka sohbet robotları, ChatGPT’nin 2022’deki lansmanından bu yana parlaklığını yitirdi. Bu nedenle şirketler, bir yapay zeka asistanıyla konuşmanın ve görsel olarak bir şeyler paylaşmanın, yazmaktan daha doğal hissettirmesini umuyor. Çok modlu yapay zekanın iyi yapıldığını gördüğünüzde, sanki bilim kurgu hayat buluyormuş gibi geliyor.
Pazartesi günü OpenAI kendini gösterdi GPT-4 Çok YönlüGarip bir şekilde insan bağlantısının kaybolmasıyla ilgili distopik filmi anımsatıyordu. O. Omni, “çok kanallı” anlamına gelir ve OpenAI, modelin sesin yanı sıra videoyu da işleme yeteneğini öne sürdü. Demo, ChatGPT’nin bir telefon kamerası aracılığıyla bir matematik problemine baktığını gösteriyordu; bir OpenAI personeli sözlü olarak chatbot’tan onlara sorun üzerinde yol göstermesini istiyordu. OpenAI, şimdi Premium kullanıcılara sunulduğunu söylüyor.
Ertesi gün Google’da Astra Projesi’nin açılışını yaptı, kabaca aynı şeyi yapmayı vaat ediyordu. Gizmodo’nun Florence Ion’u, hangi sahte çiçeklere baktığını belirlemek için multimodal yapay zekayı kullandı ve bunları doğru bir şekilde lale olarak tanımladı. Ancak Project Astra, GPT-4o’dan biraz daha yavaş görünüyordu ve ses çok daha robotikti. Şundan daha fazlası: Siri O, ama bunun iyi bir şey olup olmadığına karar vermeni sana bırakacağım. Ancak Google bunun henüz erken aşamalarda olduğunu söylüyor ve hatta OpenAI’nin üstesinden geldiği bazı mevcut zorluklara da dikkat çekiyor.
Google, “Çok modlu bilgileri anlayabilen yapay zeka sistemleri geliştirmede inanılmaz ilerleme kaydetmiş olsak da, yanıt süresini konuşmaya dayalı bir şeye indirgemek zorlu bir mühendislik sorunudur” dedi. Blog yazısı.
Şimdi hatırlayabilirsin Google’ın Gemini demo videosu Aralık 2023’ten itibaren bunun oldukça manipüle edildiği ortaya çıktı. Altı ay sonra Google hâlâ o videoda gösterdiğini yayınlamaya hazır değil ancak OpenAI, GPT-4o ile hızla ilerliyor. Multimodal AI, AI geliştirmede bir sonraki büyük yarışı temsil ediyor ve OpenAI kazanıyor gibi görünüyor.
GPT-4o için önemli bir fark yaratan şey, tek yapay zeka modelinin ses, video ve metni yerel olarak işleyebilmesidir. Daha önce OpenAI, dil tabanlı GPT-4’ün bu farklı ortamları anlayabilmesi için konuşmayı ve videoyu metne çevirmek için ayrı yapay zeka modellerine ihtiyaç duyuyordu. Yavaş yanıt süreleri göz önüne alındığında, Google bu görevleri gerçekleştirmek için hâlâ birden fazla yapay zeka modeli kullanıyor gibi görünüyor.
Ayrıca daha geniş bir şekilde benimsendiğini de gördük. Yapay zeka giyilebilir cihazlar teknoloji şirketleri çok modlu yapay zekayı benimserken. Humane AI Pin, Rabbit R1 ve Meta Ray-Bans’ın tümü, bu çeşitli ortamları kullanan yapay zeka özellikli cihazların örnekleridir. Bu cihazlar bizi akıllı telefonlara daha az bağımlı hale getireceğini vaat ediyor, ancak Siri ve Google Asistan’ın da yakında çok modlu yapay zeka ile güçlendirilmesi mümkün.
Multimodal yapay zeka muhtemelen önümüzdeki aylarda ve yıllarda hakkında çok daha fazla şey duyacaksınız. Geliştirilmesi ve ürünlere entegrasyonu, yapay zekayı önemli ölçüde daha kullanışlı hale getirebilir. Teknoloji sonuçta dünyayı bir Yüksek Lisans’a aktarmanın yükünü alıyor ve yapay zekanın dünyayı kendisi için “görmesine” ve “duymasına” olanak tanıyor.