Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Müziği görselleştirerek besteleyen bir yapay zeka modeli olan ‘Riffusion’ı deneyin
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Müziği görselleştirerek besteleyen bir yapay zeka modeli olan ‘Riffusion’ı deneyin

Liste

Müziği görselleştirerek besteleyen bir yapay zeka modeli olan ‘Riffusion’ı deneyin

teknomers
Son güncelleme: 16 Aralık 2022 06:52
teknomers
Paylaş
Paylaş


Yapay zeka tarafından üretilen müzik zaten yeterince yenilikçi bir kavramdır, ancak Riffusion, ses yerine ses kullanarak tuhaf ve çekici müzik üreten akıllı, garip bir yaklaşımla onu başka bir düzeye taşıyor. Görüntüler ses.

Garip geliyor, garip. Ama çalışırsa çalışır. Ve işe yarıyor! Biraz.

Difüzyon, geçen yıl boyunca yapay zeka dünyasını güçlendiren görüntüler oluşturmaya yönelik bir makine öğrenimi tekniğidir. DALL-E 2 ve Stable Difusion, görsel gürültüyü kademeli olarak yapay zekanın bir istemin nasıl görünmesi gerektiğini düşündüğü şekilde değiştirerek çalışan en yüksek profilli iki modeldir.

Yöntemin birçok bağlamda güçlü olduğu kanıtlanmıştır ve en çok eğitilmiş modele, bu içerikten daha fazla örnek üretme konusunda uzmanlaşması için çok sayıda belirli türde içerik verdiğiniz ince ayara çok duyarlıdır. Örneğin, suluboya veya araba fotoğraflarında ince ayar yapabilirsiniz ve bunlardan herhangi birini yeniden üretme konusunda daha yetenekli olduğunu kanıtlayacaktır.

Seth Forsgren ve Hayk Martiros’un hobi projeleri Riffusion için yaptıkları şey, spektrogramlar üzerinde Stable Diffusion’a ince ayar yapmaktı.

Forsgren, “Hayk ve ben küçük bir grupta birlikte çalıyoruz ve müziği sevdiğimiz ve Stable Diffusion’ın sese dönüştürmek için yeterli doğrulukta bir spektrogram görüntüsü oluşturmasının mümkün olup olmayacağını bile bilmediğimiz için projeye başladık.” TechCrunch’a söyledi. “Yol boyunca attığımız her adımda, neyin mümkün olduğundan giderek daha çok etkilendik ve bir fikir bizi bir sonrakine götürüyor.”

Spektrogram nedir diye mi soruyorsunuz? Bunlar, zaman içinde farklı frekansların genliğini gösteren sesin görsel temsilleridir. Muhtemelen zaman içinde ses seviyesini gösteren ve sesi bir dizi tepe ve vadi gibi gösteren dalga formlarını görmüşsünüzdür; sadece toplam ses yerine, alt uçtan üst uca kadar her bir frekansın hacmini gösterdiğini hayal edin.

İşte bir şarkıdan yaptığım bir parça (Secret Machines tarafından “Marconi’nin Radyosu”merak ediyorsanız):

Görsel Kaynakları: Devin Coldweey

Şarkı geliştikçe tüm frekanslarda nasıl yükseldiğini görebilir ve ne arayacağınızı biliyorsanız notaları ve enstrümanları tek tek tespit edebilirsiniz. İşlem, doğası gereği mükemmel veya hiçbir şekilde kayıpsız değildir, ancak sesin doğru, sistematik bir temsilidir. Ve aynı işlemi tersten yaparak tekrar sese dönüştürebilirsiniz.

Forsgren ve Martiros, bir grup müziğin spektrogramlarını yaptılar ve ortaya çıkan görüntüleri “blues gitar”, “caz piyano”, “afrobeat” gibi ilgili terimlerle etiketlediler. Modeli besleyen bu koleksiyon, ona belirli seslerin “neye benzediği” ve onları nasıl yeniden yaratabileceği veya birleştirebileceği konusunda iyi bir fikir verdi.

Görüntüyü rafine ederken örnekleme yaparsanız, difüzyon süreci şöyle görünür:

Görsel Kaynakları: Seth Forsgren / Hayk Martiros

Ve gerçekten de model, sese dönüştürüldüğünde “funky piano”, “jazzy saksafon” vb. komut istemleri için oldukça iyi bir eşleşme olan spektrogramlar üretebildiğini kanıtladı. İşte bir örnek:

Görsel Kaynakları: Seth Forsgren / Hayk Martiros

https://techcrunch.com/wp-content/uploads/2022/12/funky_sax_to_piano.mp3

Ama tabii ki bir kare spektrogram (512 x 512 piksel, standart Kararlı Difüzyon çözünürlüğü) yalnızca kısa bir klibi temsil eder; üç dakikalık bir şarkı çok çok daha geniş bir dikdörtgen olacaktır. Kimse bir seferde beş saniye müzik dinlemek istemez, ancak oluşturdukları sistemin sınırlamaları, 512 piksel yüksekliğinde ve 10.000 genişliğinde bir spektrogram oluşturamayacakları anlamına gelir.

Birkaç şey denedikten sonra, büyük miktarda “gizli alana” sahip Stable Difusion gibi büyük modellerin temel yapısından yararlandılar. Bu, daha iyi tanımlanmış düğümler arasındaki tarafsız bölge gibidir. Örneğin, kedileri temsil eden bir model alanınız ve köpekleri temsil eden başka bir alanınız varsa, bunların “arasında” olan şey, AI’ya çizmesini söyleseydiniz, bir tür köpek kedisi veya kedi köpeği olurdu. Böyle bir şey.

Bu arada, gizli uzay olayı bundan çok daha tuhaflaşıyor:

Yine de Riffusion projesi için ürpertici kabus dünyaları yok. Bunun yerine, “kilise çanları” ve “elektronik vuruşlar” gibi iki isteminiz varsa, birinden diğerine biraz adım atabileceğinizi ve yavaş yavaş ve şaşırtıcı bir şekilde doğal olarak birinden diğerine geçtiğini buldular. hatta vuruşta:

https://techcrunch.com/wp-content/uploads/2022/12/church_bells_to_electronic_beats.mp3

Garip, ilginç bir ses, ancak özellikle karmaşık veya aslına uygun olmadığı açık; hatırlayın, difüzyon modellerinin bunu yapabileceğinden bile emin değillerdi, bu yüzden bunun zilleri vuruşlara veya daktilo vuruşlarını piyano ve basa çevirme becerisi oldukça dikkat çekici.

Daha uzun biçimli klipler üretmek mümkündür ancak yine de teoriktir:

Forsgren, “Tekrar eden korolar ve mısralarla 3 dakikalık klasik bir şarkı yaratmaya gerçekten çalışmadık,” dedi. “Şarkı yapısı için daha yüksek seviyeli bir model oluşturmak ve ardından bireysel klipler için daha düşük seviyeli modeli kullanmak gibi bazı zekice hilelerle yapılabileceğini düşünüyorum. Alternatif olarak, tam şarkıların çok daha büyük çözünürlüklü görüntüleriyle modelimizi derinlemesine eğitebilirsiniz.”

Buradan nereye gidiyor? Diğer gruplar, yapay zeka tarafından üretilen müziği çeşitli şekillerde yaratmaya çalışıyor. konuşma sentezi modelleri Dance Diffusion gibi özel olarak eğitilmiş sesli olanlara.

Riffusion, müziği yeniden keşfetmeye yönelik herhangi bir büyük plandan çok bir “vay canına, şuna bak” demosudur ve Forsgren, kendisinin ve Martiros’un insanların işleriyle ilgilendiğini, eğlendiğini ve üzerinde yinelediğini görmekten mutlu olduklarını söyledi:

“Buradan sonra gidebileceğimiz birçok yön var ve yol boyunca öğrenmeye devam etmekten heyecan duyuyoruz. Bu sabah diğer insanların da bizim kodumuzun üzerine kendi fikirlerini oluşturmaya başladıklarını görmek eğlenceliydi. Stable Diffusion topluluğuyla ilgili harika şeylerden biri, insanların orijinal yazarların tahmin edemeyeceği yönlerde şeyleri ne kadar hızlı inşa ettikleridir.

adresinde canlı bir demoda test edebilirsiniz. Riffusion.com, ancak klibinizin oluşturulması için biraz beklemeniz gerekebilir — bu, yaratıcıların beklediğinden biraz daha fazla ilgi gördü. Kodun tamamı mevcut hakkında sayfası aracılığıylabu yüzden, bunun için gerekli fişleriniz varsa, kendinizinkini de çalıştırmaktan çekinmeyin.



genel-24

Avrupalı ​​polis şefleri ‘yasal erişim’ yönündeki son talepte E2EE’yi hedef alıyor
17 watt’lık Intel işlemci, GTX 1650 düzeyinde bir iGPU’ya sahiptir. Lunar Lake CPU’nun bir parçası olan Arc 140V grafik çekirdeği, kıyaslamada ortaya çıktı.
Yeni Lotus Eletre EV’nin içindeki teknoloji, otonom sürüş hedeflerine işaret ediyor
Film festivali, Instagram tarafından desteklenecek ilk yaratıcı villasını tanıttı
VC Ofis Saatleri: Veriler sosyal etki yatırımını geliştirmeye nasıl yardımcı olabilir?
ETİKETLENDİ:besteleyenBirdeneyingörselleştirerekmodelimüziğiolanRiffusionıYapayZeka
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Christian Bale ve Scott Cooper, Üçüncü İş Birliği “The Pale Blue Eye” ve John Fetterman’ın Nasıl Rol Aldığı Konusunda
Sonraki Makale En son Ford Focus 2022 Rusya’ya geldi. Adlandırılmış fiyatlar

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Mutfaklarınıza Midsize Bıçakla Renk Katın: Dev Şef Bıçağına Gerek Yok!
Genel
Google, SpaceX ile 920M $’lık aylık hesap anlaşması imzaladı
Donanım
Teknoloji Dünyasında Yeni Apocrypha Kodları Geliyor
Oyun
Yaz Oyun Festivali 2026: En Heyecanlandıran Duyurular ve Oyunlar
Oyun
Yapay Zeka İçerik Üreticilerini Tanımak Zorlaşıyor
Liste
Sigma BF Değerlendirmesi (2026): Eşsiz Tasarım, Sınırlı Performans!
Genel
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?