Yandex, SpeechGPT adında yeni bir sinir ağı geliştiriyor ve bu amaçla makine öğrenimi alanında uzmanları işe alıyor. Yayın, şirketin açık pozisyonlar bölümünde bu bilgiye dikkat çekti “Kommersant”. SpeechGPT sinir ağı çok modlu olacak ve farklı türdeki giriş verilerini işleyebilecek kapasiteye sahip olacak. Açıklamasında belirtildiği gibi yazı ve sesi algılayabilmeli, yazı ve sesle tepki verebilmeli, metin ve sesin kesiştiği noktada çeşitli problemleri çözebilmelidir.
Bazı Yandex hizmetleri zaten farklı türdeki giriş verilerini anlıyor. Örneğin Alice asistanıyla hem sesli hem de yazılı olarak iletişim kurabiliyorsunuz ve Neuro hizmetinde metin ve resimleri aynı anda işleyebilme özelliği mevcut. Ancak uzmanlar, çok modlu kullanıcı deneyimi ile sinir ağının çok modluluğu arasında bir fark olduğunu söylüyor: ilk durumda, veriler bir türden diğerine aktarılıyor.
Böylece, sesli asistan önce konuşmayı metne dönüştürüyor, ardından başka bir sinir ağı bunu analiz ediyor ve üçüncüsü de yanıtı metinden konuşmaya dönüştürüyor. Üstelik bu adımların her birinde veriler basitleştirilir. Çok modlu modeller, farklı içerik türlerini gecikmeden barındırır ve dönüşüm sırasında kaybolan duyguları yakalamak için tasarlanmıştır; Örneğin OpenAI’nin GPT-4o’su bu şekilde çalışır.
Analistler, SpeechGPT’nin MVP (minimum uygulanabilir ürün) versiyonunun önümüzdeki aylarda ortaya çıkabileceğine ve daha sonra daha da geliştirileceğine inanıyor. Büyük olasılıkla SpeechGPT mevcut hizmetlere entegre edilecek – mevcut sinir ağı modellerinin kademeli olarak daha modern olanlarla değiştirilmesi olacak.


