OpenAI’nin ChatGPT’nin etkileyici Ses Modu’nu ertelemesi, AI chatbot’unun birçok hayranını üzdü, ancak şimdi onlar da yakalanmış olabilir. Fransız yapay zeka geliştiricisi Kyutai, Moshi adında gerçek zamanlı bir sesli AI asistanı tanıttı.
Moshi, Alexa veya Google Assistant gibi kullanıcılarla ses aracılığıyla gerçekçi sohbetler sağlamak için tasarlanmıştır, ancak ChatGPT ve rakiplerinin, bu durumda Helium 7B modelinin altında yatan büyük dil modelleri tarafından desteklenmektedir. Kyutai’ye göre Moshi çeşitli aksanlarla konuşabilir ve 70 farklı duygu ve konuşma stiline sahiptir. Yapay zeka, Moshi’nin aynı anda dinlemesine ve konuşmasına olanak tanıyan iki ses akışını bile aynı anda işleyebilir.
Kyutai’nin Moshi’yi geliştirmesi, Metinden Konuşmaya (TTS) teknolojisi kullanılarak yapılan 100.000’den fazla sentetik diyaloğun ince ayarını yapmayı içeriyordu. Amaç, Moshi’ye insan iletişiminin nüanslarını ve tonlarını öğretmekti. Marka, Moshi’nin ses kalitesini artırmak için profesyonel bir ses sanatçısıyla bile iş birliği yaptı.
Bu AI asistanı, birden fazla arka uç için optimize edilmiş hem metin hem de ses eğitimini birleştirir, bu da bulutla etkileşime girmeye gerek kalmadan dizüstü bilgisayarlar gibi cihazlarda çalışabileceği anlamına gelir. Şirket bunu, hassas verilerin internet üzerinden iletilmesini önleyerek gizliliği ve güvenliği korumanın bir yolu olarak sunuyor. Moshi’nin bir demosunu görebilirsiniz Burada.
Açık Konuşma
Kyutai, Moshi’nin modelin kodları ve çerçevesi dahil olmak üzere açık kaynaklı bir proje olacağını ve daha fazla yenilik için bir temel sağlayacağını duyurdu. Açık kaynaklı yaklaşım, daha büyük AI şirketlerinin kapalı modelleriyle ilgili güvenlik ve etik konusunda uğraştığı şikayetleri azaltmaya da yardımcı olabilir. Fransız milyarder Xavier Niel de dahil olmak üzere Kyutai’nin destekçileri açık kaynaklı yaklaşımı destekliyor.
Kyutai ayrıca Moshi’ye dahil edilecek AI ses tanımlama, filigranlama ve imza izleme sistemleri üzerinde çalışıyor. Bu özellikler AI tarafından üretilen sesi tanımlamaya yardımcı olacak, hesap verebilirliği ve izlenebilirliği teşvik ederken AI tarafından üretilen içeriğin izlenebilmesini ve doğrulanabilmesini sağlayacaktır.
Moshi hala gelişiyor, ancak sunumdaki ses modu etkileyici. Ses yaklaşımı, ChatGPT rakiplerinin diğer sesle etkinleştirilen sürümleri için bir katalizör görevi görebilir veya Moshi tutarsa ve popüler olursa LLM’lerin Alexa ve diğer sesli asistanlara eklenmesini hızlandırabilir.
Moshi’yi denemek istiyorsanız, gösteri çevrimiçi olarak kullanılabilir ve ayrıca oradan tam chatbot’a erken erişim için kaydolabilirsiniz.