New York merkezli bir yapay zeka (AI) firması olan Hume, Pazartesi günü kullanıcıların AI seslerini özelleştirmelerine olanak tanıyacak yeni bir aracı tanıttı. Ses Kontrolü olarak adlandırılan yeni özellik, geliştiricilerin bu sesleri sohbet robotlarına ve diğer yapay zeka tabanlı uygulamalara entegre etmelerine yardımcı olmayı amaçlıyor. Şirket, geniş bir ses yelpazesi sunmak yerine, 10 farklı ses boyutu üzerinde ayrıntılı kontrol sunuyor. Kullanıcılar, boyutların her birinde istenen parametreleri seçerek uygulamaları için benzersiz sesler oluşturabilir.
Şirket, yeni AI aracını bir blog yazısı. Hume, işletmelerin marka kimliklerine uygun doğru yapay zeka sesini bulma sorununu çözmeye çalıştığını belirtti. Bu özellik sayesinde kullanıcılar, ses algısının farklı yönlerini özelleştirebilir ve geliştiricilerin yapay zeka tabanlı uygulamalar için daha iddialı, rahat veya canlı bir ses oluşturmasına olanak tanır.
Hume’un Ses Kontrolü şu anda beta sürümünde mevcuttur ancak platforma kayıtlı herkes tarafından erişilebilir. Gadgets 360 personeli araca erişip özelliği test edebildi. Geliştiricilerin ayarlayabileceği 10 farklı boyut vardır; bunlar arasında cinsiyet, atılganlık, canlılık, güven, coşku, nazallik, rahatlık, yumuşaklık, ılıklık ve gerginlik yer alır.
Şirket, istem tabanlı bir özelleştirme eklemek yerine, her bir ölçüm için -100 ile +100 arasında değişen bir kaydırıcı ekledi. Şirket, bu yaklaşımın bir sesin metinsel açıklamasıyla ilgili belirsizliği ortadan kaldırmak ve diller üzerinde ayrıntılı kontrol sağlamak için benimsendiğini belirtti.
Testlerimizde, on boyuttan herhangi birini değiştirmenin yapay zeka sesinde duyulabilir bir fark yarattığını ve aracın farklı boyutları doğru şekilde çözebildiğini gördük. Yapay zeka firması, bunun, belirli parametreler değiştirildiğinde her bir temel sesin özelliklerinin çoğunu koruyan yeni bir “denetimsiz yaklaşım” geliştirerek başarıldığını iddia etti. Hume’un elde edilen verilerin kaynağı hakkında ayrıntılı bilgi vermemesi dikkat çekicidir.
Özellikle, bir AI sesi oluşturduktan sonra geliştiricilerin Empatik Ses Arayüzü (EVI) AI modelini yapılandırarak bunu uygulamaya dağıtmaları gerekecek. Şirket belirtmese de bu deneysel özellik için muhtemelen EVI-2 modeli kullanıldı.
Gelecekte Hume, temel ses aralığını genişletmeyi, ek yorumlanabilir boyutlar sunmayı, aşırı değişiklikler altında ses özelliklerinin korunmasını geliştirmeyi ve ses özelliklerini analiz etmek ve görselleştirmek için gelişmiş araçlar geliştirmeyi planlıyor.