Google Corporation, bir metin açıklamasından ve resimlerden müzik oluşturabilen üretken bir sinir ağı MusicLM’yi tanıttı. Erişim henüz açılmayacak.



Yenilik, 280 bin saatlik müzikle eğitildi ve her türde parça oluşturabilir. Sinir ağı, açıklamanın nüanslarını da dikkate alır. Örneğin, “uzayda olma hissini” veya “bir atari oyununun ana müziği”ni uyandırabilecek bir parça verilebilir.

Sinir ağı, kullanıcının mırıldandığı, tıngırdattığı veya ıslık çaldığı mevcut melodilere dayalı olabilir. Ek olarak, sistem uzun bir iz oluşturmak için sırayla yazılmış birden çok açıklamayı kabul eder.

Ek olarak, MusicLM için görev, bir görüntü ve alt yazıları birleştirerek, sanal bir “müzisyenin” deneyim düzeyini ayarlayarak veya belirli bir enstrümanın sesini üreterek ayarlanabilir.

Son olarak, sistem sesli bölümler oluşturabilir, ancak bunlar genellikle tam teşekküllü metinler değil, yalnızca bir görünümdür.

Daha önce, görüntülere dayalı müzik oluşturabilen bir Riffusion sistemi bildirilmişti. Riffüzyonun kendisi Kararlı Difüzyona dayalıdır, ancak görüntüleri ses spektrogramları için temel olarak kullanır.



genel-22