2023, yapay zekaya ve onun sürekli genişleyen yeteneklerine adanmış bir yıl gibi geldi, ancak saf metin çıktısı çağı şimdiden gücünü kaybediyor. Yapay zeka sahnesine ChatGPT ve Google Bard gibi devler hakim olabilir, ancak yeni bir büyük dil modeli (LLM) olan NExT-GPT, metin, resim, ses ve video çıkışının tüm zenginliğini sunarak işleri sarsmak için burada.
NExT-GPT, Singapur Ulusal Üniversitesi ve Tsinghua Üniversitesi’nden araştırmacıların buluşudur. ‘Herkesten herkese’ sistemi olarak tasarlandı, SONRAKİ-GPT farklı formatlardaki girdileri kabul edebilir ve video, ses, görüntü ve metin yanıtlarında istenilen çıktıya göre yanıtlar iletebilir. Bu, bir metin istemi koyabileceğiniz ve NExT-GPT’nin bu istemi bir videoya işleyebileceği veya ona bir görüntü verip bunun bir ses çıkışına dönüştürülmesini sağlayabileceğiniz anlamına gelir.
ChatGPT, NExT-GPT’nin sunduğuna benzer ‘görme, duyma ve konuşma’ yeteneğini henüz yeni duyurdu; ancak ChatGPT, bu tür bir özelliğin daha mobil dostu bir versiyonunu tercih ediyor ve henüz video özelliklerini tanıtmıyor .
Geçen yıl çok sayıda ChatGPT alternatifi ve rakibinin ortaya çıktığını gördük, ancak NExT-GPT, şu ana kadar gördüğümüz, ChatGPT’nin metin tabanlı çıktısıyla eşleşebilen ancak aynı zamanda beklenenin ötesinde çıktılar da sağlayan birkaç LLM’den biri. OpenAI’nin popüler sohbet robotu şu anda bunu yapabiliyor. Şuraya gidebilirsiniz: GitHub sayfası ya da demo sayfası kendiniz denemek için.
Peki nasıl bir şey?
Demo sitesinde NExT-GPT ile biraz uğraştım ve etkilendiğimi ama hayran kaldığımı söylemeliyim. Elbette bu, kamuoyunun geri bildirimi, çoklu güncelleme vb. avantajları olan gösterişli bir ürün değil – ama yine de çok iyi.
Ondan kedim Miso’nun bir fotoğrafını onun kütüphaneci olarak çekilmiş bir resmine dönüştürmesini istedim ve sonuçtan oldukça memnun kaldım. Midjourney veya Stable Diffusion gibi yerleşik görüntü oluşturucularla aynı kalitede olmayabilir, ancak yine de inkar edilemeyecek kadar sevimli bir fotoğraftı.
Ayrıca video ve ses özelliklerini de test ettim ancak bu, görüntü oluşturma konusunda pek başarılı olmadı. Oluşturulan videolar yine fena değildi, ancak oluşturulan birçok görüntü ve videoyla birlikte gelen çok bariz ‘Yapay Zeka tarafından yapılmış’ görünümüne sahipti ve her şey biraz çarpık ve riskli görünüyordu. Esrarengiz bir durumdu.
Genel olarak, bu yüksek lisans programının OpenAI ve Google gibi büyük yapay zeka isimlerindeki ses ve video boşluklarını doldurma potansiyeli çok yüksek. Umarım NExT-GPT gittikçe daha iyi hale geldikçe, daha yüksek kalitede çıktılar görebileceğiz ve kısa sürede sorunsuz bir şekilde kedilerimizden mükemmel ev filmleri çekebileceğiz.