Yapay zeka tarafından üretilen müzik zaten yeterince yenilikçi bir kavramdır, ancak Riffusion, ses yerine ses kullanarak tuhaf ve çekici müzik üreten akıllı, garip bir yaklaşımla onu başka bir düzeye taşıyor. Görüntüler ses.

Garip geliyor, garip. Ama çalışırsa çalışır. Ve işe yarıyor! Biraz.

Difüzyon, geçen yıl boyunca yapay zeka dünyasını güçlendiren görüntüler oluşturmaya yönelik bir makine öğrenimi tekniğidir. DALL-E 2 ve Stable Difusion, görsel gürültüyü kademeli olarak yapay zekanın bir istemin nasıl görünmesi gerektiğini düşündüğü şekilde değiştirerek çalışan en yüksek profilli iki modeldir.

Yöntemin birçok bağlamda güçlü olduğu kanıtlanmıştır ve en çok eğitilmiş modele, bu içerikten daha fazla örnek üretme konusunda uzmanlaşması için çok sayıda belirli türde içerik verdiğiniz ince ayara çok duyarlıdır. Örneğin, suluboya veya araba fotoğraflarında ince ayar yapabilirsiniz ve bunlardan herhangi birini yeniden üretme konusunda daha yetenekli olduğunu kanıtlayacaktır.

Seth Forsgren ve Hayk Martiros’un hobi projeleri Riffusion için yaptıkları şey, spektrogramlar üzerinde Stable Diffusion’a ince ayar yapmaktı.

Forsgren, “Hayk ve ben küçük bir grupta birlikte çalıyoruz ve müziği sevdiğimiz ve Stable Diffusion’ın sese dönüştürmek için yeterli doğrulukta bir spektrogram görüntüsü oluşturmasının mümkün olup olmayacağını bile bilmediğimiz için projeye başladık.” TechCrunch’a söyledi. “Yol boyunca attığımız her adımda, neyin mümkün olduğundan giderek daha çok etkilendik ve bir fikir bizi bir sonrakine götürüyor.”

Spektrogram nedir diye mi soruyorsunuz? Bunlar, zaman içinde farklı frekansların genliğini gösteren sesin görsel temsilleridir. Muhtemelen zaman içinde ses seviyesini gösteren ve sesi bir dizi tepe ve vadi gibi gösteren dalga formlarını görmüşsünüzdür; sadece toplam ses yerine, alt uçtan üst uca kadar her bir frekansın hacmini gösterdiğini hayal edin.

İşte bir şarkıdan yaptığım bir parça (Secret Machines tarafından “Marconi’nin Radyosu”merak ediyorsanız):

Görsel Kaynakları: Devin Coldweey

Şarkı geliştikçe tüm frekanslarda nasıl yükseldiğini görebilir ve ne arayacağınızı biliyorsanız notaları ve enstrümanları tek tek tespit edebilirsiniz. İşlem, doğası gereği mükemmel veya hiçbir şekilde kayıpsız değildir, ancak sesin doğru, sistematik bir temsilidir. Ve aynı işlemi tersten yaparak tekrar sese dönüştürebilirsiniz.

Forsgren ve Martiros, bir grup müziğin spektrogramlarını yaptılar ve ortaya çıkan görüntüleri “blues gitar”, “caz piyano”, “afrobeat” gibi ilgili terimlerle etiketlediler. Modeli besleyen bu koleksiyon, ona belirli seslerin “neye benzediği” ve onları nasıl yeniden yaratabileceği veya birleştirebileceği konusunda iyi bir fikir verdi.

Görüntüyü rafine ederken örnekleme yaparsanız, difüzyon süreci şöyle görünür:

Görsel Kaynakları: Seth Forsgren / Hayk Martiros

Ve gerçekten de model, sese dönüştürüldüğünde “funky piano”, “jazzy saksafon” vb. komut istemleri için oldukça iyi bir eşleşme olan spektrogramlar üretebildiğini kanıtladı. İşte bir örnek:

Görsel Kaynakları: Seth Forsgren / Hayk Martiros

Ama tabii ki bir kare spektrogram (512 x 512 piksel, standart Kararlı Difüzyon çözünürlüğü) yalnızca kısa bir klibi temsil eder; üç dakikalık bir şarkı çok çok daha geniş bir dikdörtgen olacaktır. Kimse bir seferde beş saniye müzik dinlemek istemez, ancak oluşturdukları sistemin sınırlamaları, 512 piksel yüksekliğinde ve 10.000 genişliğinde bir spektrogram oluşturamayacakları anlamına gelir.

Birkaç şey denedikten sonra, büyük miktarda “gizli alana” sahip Stable Difusion gibi büyük modellerin temel yapısından yararlandılar. Bu, daha iyi tanımlanmış düğümler arasındaki tarafsız bölge gibidir. Örneğin, kedileri temsil eden bir model alanınız ve köpekleri temsil eden başka bir alanınız varsa, bunların “arasında” olan şey, AI’ya çizmesini söyleseydiniz, bir tür köpek kedisi veya kedi köpeği olurdu. Böyle bir şey.

Bu arada, gizli uzay olayı bundan çok daha tuhaflaşıyor:

Yine de Riffusion projesi için ürpertici kabus dünyaları yok. Bunun yerine, “kilise çanları” ve “elektronik vuruşlar” gibi iki isteminiz varsa, birinden diğerine biraz adım atabileceğinizi ve yavaş yavaş ve şaşırtıcı bir şekilde doğal olarak birinden diğerine geçtiğini buldular. hatta vuruşta:

Garip, ilginç bir ses, ancak özellikle karmaşık veya aslına uygun olmadığı açık; hatırlayın, difüzyon modellerinin bunu yapabileceğinden bile emin değillerdi, bu yüzden bunun zilleri vuruşlara veya daktilo vuruşlarını piyano ve basa çevirme becerisi oldukça dikkat çekici.

Daha uzun biçimli klipler üretmek mümkündür ancak yine de teoriktir:

Forsgren, “Tekrar eden korolar ve mısralarla 3 dakikalık klasik bir şarkı yaratmaya gerçekten çalışmadık,” dedi. “Şarkı yapısı için daha yüksek seviyeli bir model oluşturmak ve ardından bireysel klipler için daha düşük seviyeli modeli kullanmak gibi bazı zekice hilelerle yapılabileceğini düşünüyorum. Alternatif olarak, tam şarkıların çok daha büyük çözünürlüklü görüntüleriyle modelimizi derinlemesine eğitebilirsiniz.”

Buradan nereye gidiyor? Diğer gruplar, yapay zeka tarafından üretilen müziği çeşitli şekillerde yaratmaya çalışıyor. konuşma sentezi modelleri Dance Diffusion gibi özel olarak eğitilmiş sesli olanlara.

Riffusion, müziği yeniden keşfetmeye yönelik herhangi bir büyük plandan çok bir “vay canına, şuna bak” demosudur ve Forsgren, kendisinin ve Martiros’un insanların işleriyle ilgilendiğini, eğlendiğini ve üzerinde yinelediğini görmekten mutlu olduklarını söyledi:

“Buradan sonra gidebileceğimiz birçok yön var ve yol boyunca öğrenmeye devam etmekten heyecan duyuyoruz. Bu sabah diğer insanların da bizim kodumuzun üzerine kendi fikirlerini oluşturmaya başladıklarını görmek eğlenceliydi. Stable Diffusion topluluğuyla ilgili harika şeylerden biri, insanların orijinal yazarların tahmin edemeyeceği yönlerde şeyleri ne kadar hızlı inşa ettikleridir.

adresinde canlı bir demoda test edebilirsiniz. Riffusion.com, ancak klibinizin oluşturulması için biraz beklemeniz gerekebilir — bu, yaratıcıların beklediğinden biraz daha fazla ilgi gördü. Kodun tamamı mevcut hakkında sayfası aracılığıylabu yüzden, bunun için gerekli fişleriniz varsa, kendinizinkini de çalıştırmaktan çekinmeyin.



genel-24