Google araştırmacıları, DALL-E gibi sistemlerin yazılı istemlerden görüntüler oluşturmasına benzer şekilde, metin istemlerinden dakikalarca süren müzik parçaları üretebilen ve hatta ıslıklı veya uğultulu bir melodiyi başka enstrümanlara dönüştürebilen bir yapay zeka geliştirdiler (üzerinden TechCrunch). Modelin adı MusicLM’dir ve siz onunla kendi başınıza oynayamasanız da şirket, bir sürü örnek yükledim modeli kullanılarak üretilmiştir.

Örnekler etkileyici. Bir tür, atmosfer ve hatta belirli enstrümanlar öngören paragraf uzunluğundaki açıklamalardan oluşturulmuş gerçek şarkılara benzeyen 30 saniyelik parçalar ve “melodik tekno” gibi bir veya iki kelimeden oluşturulmuş beş dakikalık parçalar var. ” Belki de favorim, modele temel olarak bilgi istemleri arasında geçiş yapması için bir komut dosyası verilen bir “hikaye modu” demosu. Örneğin, bu istem:

bir video oyununda çalınan elektronik şarkı (0:00-0:15)

nehrin yanında çalınan meditasyon şarkısı (0:15-0:30)

ateş (0:30-0:45)

havai fişekler (0:45-0:60)

Sonuçlandı burada dinleyebileceğiniz ses.

Herkes için olmayabilir, ama bunun bir insan tarafından bestelendiğini tamamen görebiliyordum (Ben de bu yazıyı yazarken döngüde onlarca kez dinledim). Ayrıca demo sitesinde, modelin çello veya marakas gibi enstrümanlardan 10 saniyelik klipler oluşturması istendiğinde ne ürettiğine dair örnekler (sonraki örnek, sistemin nispeten zayıf bir iş yaptığı örnektir), sekiz saniyelik klipler de yer alır. belirli bir tür, hapishaneden kaçışa uyan müzik ve hatta yeni başlayan bir piyanist ile ileri düzey bir piyanist arasındaki sesin nasıl olacağı. Ayrıca “fütüristik kulüp” ve “akordeon death metal” gibi ifadelerin yorumlarını da içerir.

MusicLM, insan vokallerini bile simüle edebilir ve seslerin tonunu ve genel sesini doğru yapıyor gibi görünse de, onlarda kesinlikle uygun olmayan bir kalite vardır. Bunu tarif edebilmemin en iyi yolu, seslerinin grenli veya statik olması. Bu kalite yukarıdaki örnekte olduğu kadar net değil, ama sanırım bu oldukça iyi gösteriyor.

Bu arada, ondan bir spor salonunda çalacak müzik yapmasını istemenin sonucu bu. Ayrıca şarkı sözlerinin saçma sapan olduğunu da fark etmiş olabilirsiniz, ancak dikkat etmezseniz anlamayacağınız bir şekilde – Simlish veya Simlish’te şarkı söyleyen birini dinliyormuşsunuz gibi. kulağa İngilizce gibi gelmesi amaçlanan ama öyle olmayan bir şarkı.

biliyormuş gibi yapmayacağım nasıl Google bu sonuçları elde etti, ancak bir araştırma makalesi yayınladı Bu rakamı anlayacak türden biriyseniz, ayrıntılı olarak açıklamak:

Araştırmacıların birlikte kullandıkları “sıradan diziye hiyerarşik modelleme görevi”ni açıklayan bir şekil AudioLM, başka bir Google projesi.
Grafik: Google

AI tarafından üretilen müzik, onlarca yıl öncesine dayanan uzun bir geçmişe sahiptir; kredilendirilen sistemler var pop şarkıları bestelemekBach’ı kopyalamak 90’larda bir insanın yapabileceğinden daha iyive eşlik eden canlı performanslar. Yeni bir sürüm, AI görüntü oluşturma motoru StableDiffusion’ı kullanır. metin bilgi istemlerini spektrogramlara dönüştürün bunlar daha sonra müziğe dönüştürülür. Makale, MusicLM’nin “kalite ve altyazıya bağlılık” açısından ve ayrıca sesi alıp melodiyi kopyalayabilmesi açısından diğer sistemlerden daha iyi performans gösterebileceğini söylüyor.

Bu son kısım, belki de araştırmacıların ortaya koyduğu en havalı demolardan biri. Site, birisinin bir melodiyi mırıldandığı veya ıslık çaldığı giriş sesini çalmanıza izin verir, ardından modelin bunu bir elektronik synth kurşunu, yaylı çalgılar dörtlüsü, gitar solosu vb. olarak nasıl yeniden ürettiğini duymanızı sağlar. görev çok iyi.

Bu tür yapay zekaya yönelik diğer girişimlerde olduğu gibi, Google da önemli ölçüde daha dikkatli MusicLM ile, bazı emsallerinin benzer teknolojiye sahip olabileceğinden daha fazla. Makale, “yaratıcı içeriğin potansiyel olarak kötüye kullanılması” (okuyun: intihal) ve potansiyel kültürel sahiplenme veya yanlış beyan risklerine atıfta bulunarak, “Bu noktada modelleri yayınlama planımız yok” sonucuna varıyor.

Teknolojinin bir noktada Google’ın eğlenceli müzik deneylerinden birinde ortaya çıkması her zaman mümkündür, ancak şimdilik, araştırmadan yararlanabilecek kişiler yalnızca müzikal yapay zeka sistemleri oluşturan diğer kişilerdir. Google, diğer müzikal AI’ları eğitirken ve değerlendirirken yardımcı olabilecek yaklaşık 5.500 müzik-metin çifti içeren bir veri kümesini herkese açık olarak yayınladığını söylüyor.



genel-2