Pazartesi günü, ChatGPT oluşturucusu OpenAI duyuruldu ChatGPT’de ses ve görüntü tanıma özelliği kullanıma sunulmaya başlamıştı. Temel olarak yapay zeka, bir resmin ne olduğunu tanıyabilir ve kullanıcılarla bu konuda iletişim kurabilir. Ayrıca yapay zeka artık konuşmayı metne ve metinden konuşmaya sentezleme yeteneklerine sahip. Ayeni özelliklerle tanışın öyle chatbot’un daha fazla görünmesini sağlamalıydı -öhöm-İnsan gibi” olduğundan daha içinde önceki yinelemeler.

OpenAI, kullanıcılara bir fikir sunması beklenen bir tanıtım videosu paylaştı. görüntü tanıma yeteneklerinin nasıl görüneceği. Burada bir kullanıcı ChatGPT’den bisiklet koltuğunu indirmesine yardım etmesini istiyor ve buna chatbot her türlü koltuğu alçaltmak için bazı genel (ve eğer hayırsever değilsek son derece açık) tavsiyelerle yanıt veriyor.

İlk kez bisiklet koltuğu kullanıcısı daha sonra bisiklet koltuğu mandalının etrafına bir daire çizdi ve daha ayrıntılı yardım istedi; bunun için ChatGPT’nin sözde cıvata türünü tanıdığı ve kullanıcıya bir Allen’a ihtiyaçları olduğunu söylediği söylendi. İngiliz anahtarı. Sistemin aynı zamanda kullanım kılavuzunun ve alet kutusunun resmine de bakabileceği iddia ediliyor. doğru boyuta sahip olup olmadıklarını görmek için İngiliz anahtarı.

Görüntü tanıma, birçok chatbot hizmetinin denediği bir şey olmasa da, konuşma tanıma sistemleri ve ses sentezleme konusunda oldukça güncel durumdayız. OpenAI, ChatGPT’den çocuklarına belirli bir orman kirpisi hakkında yatmadan önce bir hikaye okumasını isteyen bir annenin videosuyla chatbot’un yeni ses servislerini tanıttı. gerçek resimli kitap, ama sanırım bu ebeveyn olmanın bir yolu).

OpenAI’nin blog gönderisinde yer alan örnekler doğal bir ses tonuna sahiptir, ancak “Ardıç”, “Gökyüzü” veya “Breeze” ses paketlerinin küçük Kirpi Larry veya orman arkadaşlarından herhangi biri için benzersiz sesler yaratacağı söylenemez. OpenAI’ye göre her ses, seslerini sisteme lisanslayan bir seslendirme sanatçısına dayanıyor.

Diğer AI ses sentezleme yöntemlerine benzer ElevenLabs gibi şirketler. Bu hizmet başlangıçta olduğu için sürüklendi deepfake ve taciz için kullanılıyor. OpenAI, ilk sesli hizmetlerinin yalnızca ChatGPT sesli sohbette uygulandığını söyledi. Şirket ayrıca ses sistemlerini Pazartesi günü Spotify’a lisanslayacak. duyuruldu yeni podcast sesli çeviri yetenekleri. Sistem popülerliği taklit edebilmelidir podcast yayıncıları sesler konuşuyorum Başlangıç ​​olarak İspanyolca, Fransızca ve Almanca.

Tabii ki, yeni özellik yalnızca Plus veya Enterprise hizmeti için ödeme yapan kullanıcılar tarafından kullanılabilir ve her iki özelliğin de şu adreste mevcut olması gerekir: Önümüzdeki iki hafta içinde iOS ve Android. ChatGPT’nin web sürümündeki kullanıcılar da yakında görüntü yeteneklerine sahip olacak. Sistem ayrıca bu tanıtım videolarının önerdiği kadar hızlı veya yetenekli olmayacak. kablolu ses tanımanın aldığı yayın öncesi sürüme dayalı olarak rapor edilmiştir yanıt vermesi birkaç saniye sürecek ve görüntü sistemi fotoğraflardaki kişileri tanımlamaya çalışmayacak (bekleyip sistemin fotoğraflardaki kişilerin mahremiyetini ne kadar iyi korumaya çalıştığını görmemiz gerekecek).

OpenAI sözcüsü, Gizmodo’ya gönderdiği bir e-postada, “zaman içinde risk azaltımlarının iyileştirilmesine ve iyileştirilmesine olanak sağlamak için kademeli olarak” yeni özellikler sunmaya çalıştıklarını söyledi; bu, ses ve görüntü tanıma konusunda daha da “önemli” bir şey.

Vizyon tabanlı modellerle ilgili diğer sorun ise chatbot’un, kullanıcıların istemlerini yanlış yorumlayabileceği veya doğru şekilde ölçemediği tamamen yeni bir alana sahip olmasıdır. OpenAI şirketin kırmızı takımına sahip çıktıRiskleri azaltmak için bu yeni özelliği kullandık ancak kullanıcıların chatbotun etik sınırlarını bir kez daha zorlaması an meselesi olacak.

ChatGPT’de var izledim onun toplam kullanıcı sayısı azaldı Kasım ayında ilk kez büyük bir popülerlik gördüğünden beri 2022. Sorunun bir kısmı, bazı kullanıcıların şirketin chatbotun yeteneklerini engelledi OpenAI bir tür bulmakta zorlanırken etik denge zararları azaltmak ve chatbot kullanıcılarının çılgına dönmesine izin vermek arasında.

OpenAI ayrıca chatbot’u için büyük teknoloji oyuncularından gelen büyük bir rekabetle karşı karşıyadır. Meta yanı sıra startuplar gibi Antropik. Google bildirildiğine göre “Gemini” adlı kendi GPT-4 rakibini piyasaya sürmeye hazırlanıyor. görüntü ve ses tanıma yeteneklerini de içerebilir. Geçen hafta, OpenAI DALL-E 3 yapay zeka görüntü oluşturucusunu tanıttı Hangi ChatGPT entegrasyonunu da içerir. Aslında bu sadece “doğal dil” Kool-Aid’i içen başka bir şirketbir sistemi doğal dili kullanarak çalıştırma yeteneğinin, bir şekilde daha iyi işleyen bir sistemin yerini aldığını düşünüyor Kullanıcı arayüzü.



genel-7