Ne bilmek istiyorsun
- OpenAI kısa süre önce yeni amiral gemisi GPT-4o modelini piyasaya sürdü.
- Gerçek zamanlı olarak ses, görüntü ve metin üzerinden mantık yürütebilir ve ChatGPT ile etkileşimleri daha kusursuz hale getirir.
- OpenAI ayrıca Mac için Windows’u reddeden yerel bir ChatGPT uygulamasını da tanıttı.
- Viral bir ChatGPT demosu, GPT-4o’nun başka bir AI modeliyle konuşmak için ses ve görsel yeteneklerini sergiledi.
OpenAI az önce yeni amiral gemisi GPT-4o modelini tanıttı (bu modeller piyasaya sürülmeye devam ederken kafası karışan tek kişinin ben olmadığımı biliyorum). Temel olarak GPT-4o, OpenAI’nin GPT-4’ünün geliştirilmiş bir versiyonudur ve aynı derecede akıllıdır. Model daha sezgiseldir ve gerçek zamanlı olarak ses, görüntü ve metin üzerinde mantık yürütebilir, böylece ChatGPT ile etkileşimler daha kusursuz hale gelir.
OpenAI’nin yeni sonuçlanan Bahar Güncellemesi etkinliğinin ardındaki “sihir” hâlâ tartışmalı, ancak sosyal medyada ortaya çıkan demolar oldukça etkileyici ve akıllara durgunluk verici. İtalyanca dilini İngilizceye çevirmek ve bilgiyi gerçek zamanlı olarak iletmek oldukça önemli bir şeydir; dil engeli gibi iletişim engellerini potansiyel olarak uzak tutar.
Ancak beni şaşırtan şey, tarafından paylaşılan bir video demosuydu. OpenAI Başkanı ve Kurucu Ortağı Greg Brockman on X (eski adıyla Twitter). Bir gün bir sanal asistanın başka bir yapay zeka asistanıyla minimum komplikasyonla tam bir görüşme yapabileceği bir noktaya ulaşacağımızı hiç düşünmemiştim.
Metin, ses ve videoyu gerçek zamanlı olarak değerlendirebilen yeni modelimiz GPT-4o ile tanışın. Son derece çok yönlüdür, oynaması eğlencelidir ve insan-bilgisayar etkileşiminin (ve hatta insan ilişkilerinin) çok daha doğal bir biçimine doğru atılmış bir adımdır. -bilgisayar-bilgisayar etkileşimi): pic.twitter.com/VLG7TJ1JQx13 Mayıs 2024
Demo, kullanıcının iki yapay zeka sohbet robotuna aslında birbirleriyle konuşacaklarını açıklamasıyla başlıyor. Kullanıcı, chatbotlardan birinin kamera aracılığıyla dünyayı görebildiğini belirterek, chatbotlara beklentilerini gezdiriyor. Buna karşılık, diğer chatbot, soruları modelleyebilir ve hatta kullanıcının yardımıyla belirli görevleri gerçekleştirmeye yönlendirebilir.
İlk sohbet robotu şaka yollu bir şekilde “Evet, tam da işlerin bundan daha ilginç olamayacağını düşünürken” diye yanıtladı. Dünyayı görebilen başka bir yapay zeka ile konuşmak, yapay zeka evreninde bir olay örgüsü gibi geliyor.” Yapay zeka asistanı şartları kabul etmeden hemen önce kullanıcı, ikinci yapay zekaya talimat verirken bir süre duraklamasını istedi. .
Kullanıcı, ilk andan itibaren ikinci yapay zeka asistanına dünyayı görme erişimine sahip olacağını söyleyerek onunla konuşmaya başlıyor. Bunun asistanın telefondaki kameraya erişmesini isteyen ince bir istem olduğunu varsayıyorum. gözleri dünyayı görmek için. Arayüzde anında bir kamera (selfie modu) bulunur ve kullanıcının ne giydiği ve çevresi hakkında kristal netliğinde bir resim çizilir.
Bu noktadan itibaren kullanıcı, ilk yapay zeka modelinin kendisiyle konuşacağını ve kamerayı hareket ettirme ve gördükleri dahil olmak üzere sorular soracağını belirtiyor. Faydalı olması bekleniyor ve sorulara doğru yanıtlar verilecek.
Süreç, “dünyayı görebilen” yapay zekanın, kullanıcıyı ve kıyafet kuralları ve bina tasarımı hakkında daha fazla bağlam dahil olmak üzere kendi görüşünde olanı açıklamasıyla başlıyor. İlginç bir şekilde, ilk yapay zeka, paylaşılan bilgilere dayanarak geri bildirim verdiğinden, neredeyse FaceTime’da konuşan iki insan gibi hissediyorsunuz. Ek olarak yapay zeka, kullanıcının ne yaptığını, ifadesini ve hatta sahip oldukları şeye bağlı olarak tarzını sıkı bir şekilde anlıyor gibi görünüyor.
Aklımı başımdan alan şey, kullanıcının odadaki başka bir kişiye yaklaşması ve yapay zekanın görüş alanında görünmesi için işaret vermesiydi. Yapay zeka bunu anında fark etti ve hatta kullanıcının kamerayla doğrudan etkileşimine bağlı olarak “sunuma veya konuşmaya hazırlanıyor olabileceğini” bile belirtti.
İlginçtir ki, üçüncü bir tarafın tanıtılması her iki yapay zeka arasındaki konuşmayı etkilemedi. İlk bakışta yapay zekanın odaya giren ve telefonu tutan kullanıcının arkasında duran kişiyi görmediğini söylemek neredeyse mümkün.
Ancak durum böyle değil. Kullanıcı olağandışı bir şey olup olmadığını sormak için her iki yapay zeka arasındaki konuşmayı kısa süreliğine durdurdu. Görsel yeteneklere sahip yapay zeka, birinci kişinin arkasında ikinci bir kişinin görüş alanına girdiğini ve çerçeveyi hızla terk etmeden önce birinci kişinin arkasına şakacı bir şekilde tavşan bakışları attığını belirtti. AI durumu şu şekilde ifade etti: hafif yürekli ve beklenmedik.
Demo, GPT-4o’nun geniş yeteneklerini sergilemeye devam ediyor. Kullanıcı, her iki modelin de az önce meydana gelen olaylara dayanarak bir şarkı oluşturmasını ve bunu değişen dizelerle söylemesini bile talep ediyor. Bir noktada, korosunu kilisede yapılacak önemli bir etkinliğe hazırlayan bir koro şefi gibi görünüyor.
Ayrıca gördüğüm demoların çoğunun çoğunlukla iPhone ve MacBook gibi Apple cihazlarında olduğunu da belirtmeliyim. Belki de OpenAI’nin Windows’a göndermeden önce Mac kullanıcıları için yerel bir ChatGPT uygulaması yayınlamasının nedeni budur. Ayrıca OpenAI CEO’su Sam Altman, “iPhone’un insanlığın şimdiye kadar yaptığı en büyük teknoloji parçası olduğunu” itiraf etti.