ChatGPT artık görebilir, duyabilir ve konuşabilir. İşte nasıl çalışıyor?

OpenAI sohbet robotunun evrimsel atılımı tamamlandı ve Apple’ın Siri’si veya Amazon’un Alexa’sı gibi tüketici uygulamalarına giderek daha fazla benzemeye başladı. OpenAI tarafından duyurulduğu üzere, artık sistemin daha doğal ve etkili bir etkileşim için kullanacağı görüntülerin yanı sıra konuşmalara da ses girişi eklemek mümkün.
“Ses ve görüntü, hayatınızda ChatGPT’yi kullanmanın daha fazla yolunu sunuyor. Seyahat ederken önemli bir yerin fotoğrafını çekin ve neyin ilginç olduğu hakkında canlı sohbet yapın. Evdeyken, akşam yemeğinde ne olduğunu anlamak için buzdolabınızın ve kilerinizin fotoğraflarını çekin (ve adım adım tarif için takip soruları sorun). Akşam yemeğinden sonra, fotoğrafını çekerek, problem setini daire içine alarak ve önerilerini ikinizle de paylaşmasını isteyerek çocuğunuzun matematik probleminde yardımcı olun,” diyor yeni özellikleri tanıtan makalede OpenAI.

Yeni özellik nasıl çalışıyor?

ChatGPT’nin yeni yetenekleri, gelecekte hedef kitleyi diğer kullanıcıları da kapsayacak şekilde genişletmek amacıyla, Plus ve Enterprise planlarına abone olan kullanıcılardan başlayarak, başlangıçta yalnızca İngilizce olarak Android ve iPhone uygulamasında halihazırda mevcuttur. Güncelleme, kullanıcıların sohbet robotuna sorularını sözlü olarak sormalarına ve konuşma sentezi işlevi sayesinde beş farklı ses arasından seçim yapma olanağı sayesinde chatbotun yanıtını duymalarına olanak tanıyacak. Hayal gücü ve görsel cephedeki etkileşimler de basittir: ChatGPT’den bir fotoğraf yüklediğinizde veya çektiğinizde, uygulama, Google Lens’e benzer şekilde görüntünün bir açıklaması ve bağlamsal bilgilerle yanıt verecektir.ChatGPT’nin güncellenmiş sürümü, sağ üstte kulaklık şekli ve sol altta açılan menüde fotoğraf ve kamerayı gösteren simgeler. Ses ve görsel işlevler, ses veya görüntü tanımayı kullanarak gelen bilgileri metne dönüştürerek sohbet robotunun yanıt oluşturmasına olanak tanır. Daha sonra uygulama, kullanıcının hangi modu seçtiğine bağlı olarak sesli veya yazılı olarak yanıt verir.OpenAI için, ChatGPT’nin yeni ses oluşturma teknolojisi, başkalarının kendi teknolojisini kullanmalarına izin vermek için yeni fırsatlar açar. Örneğin Spotify, bunu zaten podcast’leri başka dillere çeviren (şu anda sadece İspanyolca ve yalnızca seçilen bazı podcast’lerde), yapay zeka sayesinde insan sesini taklit eden bir işlev için kullanıyor.

Gizlilik ve diğer kritik konularla ilgili şüpheler

Sesli ve görsel özelliklerin tanıtılması, geliştiricilerin insan zekasına mümkün olduğunca benzer bir zeka oluşturmak, algoritmalara metinsel bilgilerin yanı sıra işitsel ve görsel bilgiler sağlamak için arzuladığı evrimsel adımdır. Bu, üretken yapay zekadaki diğer birçok yeni ilerleme gibi, OpenAI’nin kullanıcılardan gelen ses ve görüntü verilerinin akışını nasıl yöneteceği konusunda meşru endişeleri artırıyor. ChatGPT ve Dall-E gibi modelleri, kullanıcılar tarafından gönderilen ve potansiyel yüz fotoğrafları da dahil olmak üzere sınırsız miktarda ses talebi ve görselin yakında gelmesiyle birlikte, bir soru hala cevapsız kalıyor: Şirket, veri havuzunu genişletmek için fotoğraf ve ses kullanacak mı? Algoritmalarını hangi konuda eğitmeli? Muhtemelen öyle ve OpenAI, ellerini öne uzatarak, kullanıcıların uygulamada belirli bir işlevi etkinleştirerek verilerinin eğitim amacıyla kullanılmasından kaçınmayı seçebileceklerini zaten beyan etti.Genel olarak OpenAI, etik ve teknolojilerinin güvenli kullanımı: “Araçlarımızı kademeli olarak kullanılabilir hale getirmenin önemine inanıyoruz; bu, zaman içinde iyileştirmeler yapmamıza ve risk azaltmayı hassaslaştırmamıza, gelecekte daha güçlü sistemlere hazırlanmamıza olanak tanır. OpenAI, ses ve görüntüleri içeren gelişmiş modellerle daha da önemli hale gelen bir strateji” dedi.

genel-18

Byteknomers

Yeni özellik nasıl çalışıyor?

Gizlilik ve diğer kritik konularla ilgili şüpheler

By teknomers

Benzer İçerikler

228 beygir gücünde Mitsubishi motora, dürüst dört tekerlekten çekişe ve 8 vitesli otomatik şanzımana sahip Land Cruiser Prado’nun bir analogunun fiyatı 3,5 milyon rubleye düştü. Oting “Paladin” tüm donanım seviyelerinde daha erişilebilir hale geldi

Oppo Find X8 Pro: Hasselblad çekimleri ve Google’ın Nesil Yapay Zekası premium alanda kazanacak

Meta Ray-Ban Akıllı Gözlüklerde Kara Cuma Fırsatlarıyla Göz Kıyafetlerinizi Yükseltin

Patapon’un Ruhani Varisi Ratatan, 2025 İçin Müzik Sahnesini Hazırlıyor

Apple AirPods Pro 2 Kara Cuma Günü En Düşük Fiyatına Düştü

Mega Man Ücretsiz Çizgi Roman Günü’nün Bir Parçası Olacak

Stalker 2: Çernobil’in Kalbi – Guides Hub

Sesli mesaj transkriptleri nihayet WhatsApp’a geliyor

Akıllı telefonunuzun sağlık özelliklerini kullanıyor musunuz?

Galaxy Watch Ultra, Peru Donanması eğitim programında yürüyüşe çıkıyor

Görünüşe göre insanlar iPhone Pro modellerini istemiyor

Güneşimiz yeni bir simülasyonun yıldızı

Yaşamın kökeni araştırması, RNA’nın hem sol hem de sağ elini kullanan proteinleri destekleyebileceğini ortaya koyuyor

Gökbilimciler galaksimizin dışındaki bir yıldızın ilk yakın çekim fotoğrafını çekti

NASA’nın Swift’i geliştirilmiş işaretleme modunda 20. yıl dönümüne ulaştı

İlginizi Çekebilir

Razer Wolverine V2 Chroma incelemesi: Razer’ın Xbox denetleyicisi, kabloyu dert etmezseniz neredeyse hile yapıyormuş gibi hissettiriyor

228 beygir gücünde Mitsubishi motora, dürüst dört tekerlekten çekişe ve 8 vitesli otomatik şanzımana sahip Land Cruiser Prado’nun bir analogunun fiyatı 3,5 milyon rubleye düştü. Oting “Paladin” tüm donanım seviyelerinde daha erişilebilir hale geldi

Redmi K80 Pro AnTuTu Puanı, Ekran Ayrıntıları Lansmandan Önce Açıklandı; Snapdragon 8 Elite SoC’yi Almak İçin

Şimdiye kadarki en düşük fiyatıyla Motorola Razr+ (2024), bu Kara Cuma için gerçek bir fırsat