OpenAI sohbet robotunun evrimsel atılımı tamamlandı ve Apple’ın Siri’si veya Amazon’un Alexa’sı gibi tüketici uygulamalarına giderek daha fazla benzemeye başladı. OpenAI tarafından duyurulduğu üzere, artık sistemin daha doğal ve etkili bir etkileşim için kullanacağı görüntülerin yanı sıra konuşmalara da ses girişi eklemek mümkün.
“Ses ve görüntü, hayatınızda ChatGPT’yi kullanmanın daha fazla yolunu sunuyor. Seyahat ederken önemli bir yerin fotoğrafını çekin ve neyin ilginç olduğu hakkında canlı sohbet yapın. Evdeyken, akşam yemeğinde ne olduğunu anlamak için buzdolabınızın ve kilerinizin fotoğraflarını çekin (ve adım adım tarif için takip soruları sorun). Akşam yemeğinden sonra, fotoğrafını çekerek, problem setini daire içine alarak ve önerilerini ikinizle de paylaşmasını isteyerek çocuğunuzun matematik probleminde yardımcı olun,” diyor yeni özellikleri tanıtan makalede OpenAI.
Yeni özellik nasıl çalışıyor?
ChatGPT’nin yeni yetenekleri, gelecekte hedef kitleyi diğer kullanıcıları da kapsayacak şekilde genişletmek amacıyla, Plus ve Enterprise planlarına abone olan kullanıcılardan başlayarak, başlangıçta yalnızca İngilizce olarak Android ve iPhone uygulamasında halihazırda mevcuttur. Güncelleme, kullanıcıların sohbet robotuna sorularını sözlü olarak sormalarına ve konuşma sentezi işlevi sayesinde beş farklı ses arasından seçim yapma olanağı sayesinde chatbotun yanıtını duymalarına olanak tanıyacak. Hayal gücü ve görsel cephedeki etkileşimler de basittir: ChatGPT’den bir fotoğraf yüklediğinizde veya çektiğinizde, uygulama, Google Lens’e benzer şekilde görüntünün bir açıklaması ve bağlamsal bilgilerle yanıt verecektir.ChatGPT’nin güncellenmiş sürümü, sağ üstte kulaklık şekli ve sol altta açılan menüde fotoğraf ve kamerayı gösteren simgeler. Ses ve görsel işlevler, ses veya görüntü tanımayı kullanarak gelen bilgileri metne dönüştürerek sohbet robotunun yanıt oluşturmasına olanak tanır. Daha sonra uygulama, kullanıcının hangi modu seçtiğine bağlı olarak sesli veya yazılı olarak yanıt verir.OpenAI için, ChatGPT’nin yeni ses oluşturma teknolojisi, başkalarının kendi teknolojisini kullanmalarına izin vermek için yeni fırsatlar açar. Örneğin Spotify, bunu zaten podcast’leri başka dillere çeviren (şu anda sadece İspanyolca ve yalnızca seçilen bazı podcast’lerde), yapay zeka sayesinde insan sesini taklit eden bir işlev için kullanıyor.
Gizlilik ve diğer kritik konularla ilgili şüpheler
Sesli ve görsel özelliklerin tanıtılması, geliştiricilerin insan zekasına mümkün olduğunca benzer bir zeka oluşturmak, algoritmalara metinsel bilgilerin yanı sıra işitsel ve görsel bilgiler sağlamak için arzuladığı evrimsel adımdır. Bu, üretken yapay zekadaki diğer birçok yeni ilerleme gibi, OpenAI’nin kullanıcılardan gelen ses ve görüntü verilerinin akışını nasıl yöneteceği konusunda meşru endişeleri artırıyor. ChatGPT ve Dall-E gibi modelleri, kullanıcılar tarafından gönderilen ve potansiyel yüz fotoğrafları da dahil olmak üzere sınırsız miktarda ses talebi ve görselin yakında gelmesiyle birlikte, bir soru hala cevapsız kalıyor: Şirket, veri havuzunu genişletmek için fotoğraf ve ses kullanacak mı? Algoritmalarını hangi konuda eğitmeli? Muhtemelen öyle ve OpenAI, ellerini öne uzatarak, kullanıcıların uygulamada belirli bir işlevi etkinleştirerek verilerinin eğitim amacıyla kullanılmasından kaçınmayı seçebileceklerini zaten beyan etti.Genel olarak OpenAI, etik ve teknolojilerinin güvenli kullanımı: “Araçlarımızı kademeli olarak kullanılabilir hale getirmenin önemine inanıyoruz; bu, zaman içinde iyileştirmeler yapmamıza ve risk azaltmayı hassaslaştırmamıza, gelecekte daha güçlü sistemlere hazırlanmamıza olanak tanır. OpenAI, ses ve görüntüleri içeren gelişmiş modellerle daha da önemli hale gelen bir strateji” dedi.