Çoğunlukla yapay zeka tarafından oluşturulan görsellerle tanınan bir şirket olan Stability AI, Stable Audio adında metinden sese üretken bir yapay zeka platformu başlattı.

Kararlı Ses Şirketin daha popüler görüntü platformu Stable Diffusion’a güç veren aynı AI modeli olan bir yayılma modeli kullanıyor, ancak görüntüler yerine sesle eğitiliyor. Kullanıcılar bunu herhangi bir proje için şarkı veya arka plan sesi oluşturmak için kullanabilirler.

Ses yayma modelleri sabit uzunlukta ses üretme eğilimindedir; bu da şarkıların uzunlukları değişebileceğinden müzik üretimi için çok kötüdür. Stability AI’nin yeni platformu, kullanıcıların farklı uzunluklarda sesler çıkarmasına olanak tanıyarak şirketin müzik konusunda eğitim almasını ve bir şarkının başlangıç ​​ve bitiş zamanına ilişkin metin meta verileri eklemesini gerektiriyor.

Daha önce, 30 saniyelik bir klipte öğretilen ses yalnızca 30 saniyelik ses üretebiliyor ve şarkılardan rastgele bölümler oluşturabiliyordu. Stability AI, modelde yapılan ince ayarların artık Stabil Ses kullanıcılarının şarkının ne kadar süreceği konusunda daha fazla kontrole sahip olmasını sağladığını söyledi.

Şirket yaptığı açıklamada, “Stable Audio, Stability AI’nin üretken ses araştırma laboratuvarı Harmonai’nin son teknoloji ses üretimi araştırmasını temsil ediyor” dedi. “Çıktı kalitesini, kontrol edilebilirliğini, çıkarım hızını ve çıktı uzunluğunu iyileştirmek için model mimarilerimizi, veri kümelerimizi ve eğitim prosedürlerimizi geliştirmeye devam ediyoruz.”

Şirkete göre Stable Audio’yu “müzik, ses efektleri ve tek enstrüman gövdeleri içeren 800.000’den fazla ses dosyasından oluşan bir veri seti” ve hazır müzik lisanslama şirketi AudioSparx’ın metin meta verileriyle eğitti. Veri seti 19.500 saatten fazla sesi temsil ediyor. Bir lisanslama şirketiyle ortaklık kuran Stability AI, telif hakkıyla korunan materyali kullanma iznine sahip olduğunu söylüyor.

Stabil Ses sahip olacak üç fiyatlandırma katmanı: Kullanıcıların ayda 20 parça için 45 saniyeye kadar ses oluşturmasına olanak tanıyan ücretsiz bir sürüm; 90 saniyeye kadar uzunluğa sahip 500 parça için 11,99 ABD doları değerinde Profesyonel seviye; ve şirketlerin kullanımlarını ve fiyatlarını özelleştirebilecekleri bir Kurumsal abonelik. Ücretsiz sürümü kullananlar, Stable Audio ile yaptıkları sesi ticari olarak kullanamazlar.

Üretken yapay zeka alanındaki diğer büyük isimler bu konseptle uğraşırken metinden sese dönüştürme yeni değil. Meta, istemlerden doğal ses veren ERM, ses ve müzik oluşturmaya yardımcı olan üretken bir yapay zeka model paketi olan AudioCraft’ı Ağustos ayında piyasaya sürdü. Şu ana kadar yalnızca araştırmacıların ve bazı ses profesyonellerinin kullanımına açıktır. Google’ın MusicLM’si aynı zamanda insanların ses üretmesine de olanak tanıyor ancak bu yalnızca araştırmacıların kullanımına açık.

Diğer üretken AI ses platformlarında olduğu gibi, Stable Audio’nun potansiyel kullanım durumlarının büyük bir kısmı, bu iş akışlarını daha hızlı hale getirmek için podcast’ler veya videolar için arka plan müziği yapmak olacaktır.



genel-2