OpenAI geçen Mart ayında GPT-4’ü piyasaya sürdüğünde ana avantajlarından biri, ChatGPT’nin görüntü girişlerini kabul etmesine olanak tanıyan çok modlu yeteneğiydi. Ancak multimodal kapasite bugüne kadar kullanıma hazır değildi.

Pazartesi, OpenAI duyuruldu ChatGPT’nin artık “görebildiği, duyabildiği ve konuşabildiği”, bu da chatbot’un hem görüntüleri hem de ses verilerini alma ve sesli konuşmalara yanıt verme yönündeki yeni yeteneklerinin ipucunu veriyor.

Resim girişi özelliği, bir yaprak üzerindeki matematik problemini çözmek, bir bitkinin adını belirlemek veya sakla-ye içindeki öğelere bakmak ve tariflere dayalı istekte bulunmak gibi görülebilecek şeyler konusunda yardım almak için yararlı olabilir.

Fotoğraf çekin ve soruyu ekleyin

Tüm bu durumlarda, kullanıcı sadece baktığı şeyin fotoğrafını çeker ve yanıtlanmasını istediği soruyu ekler. OpenAI, görüntü anlama yeteneğinin GPT-3.5 ve GPT-4 tarafından desteklendiğini söylüyor.

Ses girişi ve çıkışı özelliği, ChatGPT’ye sesli asistanla aynı işlevselliği sağlar. ChatGPT’den bir görev istemek için kullanıcıların yalnızca seslerini kullanmaları gerekir ve istek işlendikten sonra size sözlü olarak yanıt verir.

OpenAI tarafından paylaşılan demoda, bir kullanıcı sözlü olarak ChatGPT’den bir kirpi hakkında yatmadan önce bir hikaye anlatmasını istiyor. ChatGPT, Amazon’un Alexa’sı gibi sesli asistanların yaptığı gibi bir hikaye anlatarak yanıt verir.

Yapay zeka asistanları için yarış sürüyor

Geçtiğimiz hafta Amazon, Alexa’ya ChatGPT’ye benzer yetenekler kazandıracak ve onu eller serbest bir yapay zeka asistanı haline getirecek yeni bir LLM vereceğini duyurduğundan, AI asistanları için yarış devam ediyor. ChatGPT’nin platformuna ses entegrasyonu da aynı sonuca ulaşıyor.

Ses işlevini desteklemek için OpenAI, bir kullanıcı tarafından konuşulan kelimeleri metne dönüştürmek için konuşma tanıma sistemi olan Whisper’ın yanı sıra, yalnızca bir metinden insan benzeri ses üretebilen yeni bir metin-konuşma modelini kullanır. birkaç saniyelik konuşma.

Şirket, kullanıcıların seçebileceği ChatGPT’nin beş sesini oluşturmak için profesyonel seslendirme sanatçılarıyla işbirliği yaptı.

Yalnızca ChatGPT Plus ve Enterprise için

Ses ve görüntü özellikleri önümüzdeki iki hafta boyunca yalnızca ChatGPT Plus ve Enterprise için geçerli olacak. Ancak OpenAI, kısa süre sonra bu özelliğe erişimi geliştiriciler gibi diğer kullanıcılara da genişleteceğini söylüyor.

Plus veya Enterprise kullanıcısıysanız, görüntü yakalama özelliğine erişmek için sohbet arayüzündeki fotoğraf düğmesine dokunmanız ve bir görüntü yüklemeniz yeterlidir. Ses işlevine erişmek için Ayarlar ve Yeni özellikler’e gidin ve sesli konuşmaları seçin.

GPT-4 tarafından desteklenen Bing Chat, görüntü ve ses girişini destekler ve tamamen ücretsizdir. Bu özellikleri test etmek istiyorsanız ancak henüz bunlara erişiminiz yoksa Bing Chat iyi bir alternatiftir.


Kaynak : “ZDNet.com”



genel-15