ChatGPT artık görebilir, duyabilir ve konuşabilir. İşte nasıl çalışıyor?

OpenAI sohbet robotunun evrimsel atılımı tamamlandı ve Apple’ın Siri’si veya Amazon’un Alexa’sı gibi tüketici uygulamalarına giderek daha fazla benzemeye başladı. OpenAI tarafından duyurulduğu üzere, artık sistemin daha doğal ve etkili bir etkileşim için kullanacağı görüntülerin yanı sıra konuşmalara da ses girişi eklemek mümkün.
“Ses ve görüntü, hayatınızda ChatGPT’yi kullanmanın daha fazla yolunu sunuyor. Seyahat ederken önemli bir yerin fotoğrafını çekin ve neyin ilginç olduğu hakkında canlı sohbet yapın. Evdeyken, akşam yemeğinde ne olduğunu anlamak için buzdolabınızın ve kilerinizin fotoğraflarını çekin (ve adım adım tarif için takip soruları sorun). Akşam yemeğinden sonra, fotoğrafını çekerek, problem setini daire içine alarak ve önerilerini ikinizle de paylaşmasını isteyerek çocuğunuzun matematik probleminde yardımcı olun,” diyor yeni özellikleri tanıtan makalede OpenAI.

Yeni özellik nasıl çalışıyor?

ChatGPT’nin yeni yetenekleri, gelecekte hedef kitleyi diğer kullanıcıları da kapsayacak şekilde genişletmek amacıyla, Plus ve Enterprise planlarına abone olan kullanıcılardan başlayarak, başlangıçta yalnızca İngilizce olarak Android ve iPhone uygulamasında halihazırda mevcuttur. Güncelleme, kullanıcıların sohbet robotuna sorularını sözlü olarak sormalarına ve konuşma sentezi işlevi sayesinde beş farklı ses arasından seçim yapma olanağı sayesinde chatbotun yanıtını duymalarına olanak tanıyacak. Hayal gücü ve görsel cephedeki etkileşimler de basittir: ChatGPT’den bir fotoğraf yüklediğinizde veya çektiğinizde, uygulama, Google Lens’e benzer şekilde görüntünün bir açıklaması ve bağlamsal bilgilerle yanıt verecektir.ChatGPT’nin güncellenmiş sürümü, sağ üstte kulaklık şekli ve sol altta açılan menüde fotoğraf ve kamerayı gösteren simgeler. Ses ve görsel işlevler, ses veya görüntü tanımayı kullanarak gelen bilgileri metne dönüştürerek sohbet robotunun yanıt oluşturmasına olanak tanır. Daha sonra uygulama, kullanıcının hangi modu seçtiğine bağlı olarak sesli veya yazılı olarak yanıt verir.OpenAI için, ChatGPT’nin yeni ses oluşturma teknolojisi, başkalarının kendi teknolojisini kullanmalarına izin vermek için yeni fırsatlar açar. Örneğin Spotify, bunu zaten podcast’leri başka dillere çeviren (şu anda sadece İspanyolca ve yalnızca seçilen bazı podcast’lerde), yapay zeka sayesinde insan sesini taklit eden bir işlev için kullanıyor.

Gizlilik ve diğer kritik konularla ilgili şüpheler

Sesli ve görsel özelliklerin tanıtılması, geliştiricilerin insan zekasına mümkün olduğunca benzer bir zeka oluşturmak, algoritmalara metinsel bilgilerin yanı sıra işitsel ve görsel bilgiler sağlamak için arzuladığı evrimsel adımdır. Bu, üretken yapay zekadaki diğer birçok yeni ilerleme gibi, OpenAI’nin kullanıcılardan gelen ses ve görüntü verilerinin akışını nasıl yöneteceği konusunda meşru endişeleri artırıyor. ChatGPT ve Dall-E gibi modelleri, kullanıcılar tarafından gönderilen ve potansiyel yüz fotoğrafları da dahil olmak üzere sınırsız miktarda ses talebi ve görselin yakında gelmesiyle birlikte, bir soru hala cevapsız kalıyor: Şirket, veri havuzunu genişletmek için fotoğraf ve ses kullanacak mı? Algoritmalarını hangi konuda eğitmeli? Muhtemelen öyle ve OpenAI, ellerini öne uzatarak, kullanıcıların uygulamada belirli bir işlevi etkinleştirerek verilerinin eğitim amacıyla kullanılmasından kaçınmayı seçebileceklerini zaten beyan etti.Genel olarak OpenAI, etik ve teknolojilerinin güvenli kullanımı: “Araçlarımızı kademeli olarak kullanılabilir hale getirmenin önemine inanıyoruz; bu, zaman içinde iyileştirmeler yapmamıza ve risk azaltmayı hassaslaştırmamıza, gelecekte daha güçlü sistemlere hazırlanmamıza olanak tanır. OpenAI, ses ve görüntüleri içeren gelişmiş modellerle daha da önemli hale gelen bir strateji” dedi.

genel-18

Byteknomers

Yeni özellik nasıl çalışıyor?

Gizlilik ve diğer kritik konularla ilgili şüpheler

By teknomers

Benzer İçerikler

Snapdragon X Elite dizüstü bilgisayarlar konusunda heyecanlı mısınız? Intel, onları unutun, gerçek AI PC güç merkezi CPU’sunun Lunar Lake olacağını söylüyor

Intel, 2024 tatil sezonu için yeni oyun CPU serisinin “yolda” olduğunu doğruladı

CyberArk, Makine Kimlik Yöneticisi Venafi’yi 1,54 Milyar Dolara Aldı

Hellblade II İncelemesi – Harika Bir İleri Atılım

Need for Speed Unbound Güncellemesi 1.000.021 Vol. 7 Bu 21 Mayıs

Hellblade 2 Steam Deck uyumlu mu?

Hellblade 2 ne kadar sürüyor? Bölüm Listesi ve Oynatma Süreleri

İlk Sonos kulaklıkları bugün duyurulabilir

Walmart’ta şimdi 150 $ indirimle Jackery Explorer 500 ile kamp deneyiminizi geliştirin

Motorola Razr (2024) fiyatı lansman öncesinde sızdırıldı

Vietnam, Apple tedarikçisi Foxconn’dan enerji kullanımını %30 oranında azaltmasını istedi

NASA ve Sierra Space, Dream Chaser uzay uçağını fırlatma hazırlığı için Florida’ya teslim etti

Helyum Sızıntısı, NASA’yı Boeing Starliner Fırlatmayı Tekrar Ertelemeye Zorladı

Uygun egzersiz, uzay görevleri sırasında mürettebat sağlığının önemli bir parçasıdır

NASA çalışması yörünge enkazına ve potansiyel çözümlere yeni bir bakış sağlıyor

İlginizi Çekebilir

64 Megapiksel Ana Kameralı Vivo Y200 Pro 5G, IP54 Derecelendirmesi Hindistan’da Piyasaya Sürüldü: Fiyat, Teknik Özellikler

Honor, büyük ekranlı ve pilli katlanabilir kapaklı bir kabuk piyasaya süreceğini öne sürdü

Snapdragon X Elite dizüstü bilgisayarlar konusunda heyecanlı mısınız? Intel, onları unutun, gerçek AI PC güç merkezi CPU’sunun Lunar Lake olacağını söylüyor

Netto’da Pazarlık: Bu 4K televizyon şu anda rakipsiz derecede ucuz