Son iki yılda, yapay zeka destekli görüntü üreteçleri, teknolojinin yaygın olarak kullanılabilirliği ve etrafındaki teknik engellerin azalması sayesinde aşağı yukarı ticari hale geldi. Google ve Microsoft da dahil olmak üzere hemen hemen her büyük teknoloji oyuncusu ve giderek daha kazançlı olan üretken yapay zeka pastasından bir dilim kapmak isteyen sayısız girişim tarafından konuşlandırıldılar.

Bu, performans açısından henüz tutarlı olduklarını göstermez – bundan çok uzaktır. Görüntü oluşturucuların kalitesi iyileşirken, kademeli, bazen ıstırap verici bir ilerleme oldu.

Ancak Meta bir ilerleme kaydettiğini iddia ediyor.

Bugün Meta, CM3Leon’u (beceriksizce “bukalemun”) duyurdu. konuşalım), şirketin metinden görüntüye oluşturma için son teknoloji performansa ulaştığını iddia ettiği bir AI modeli. Meta, CM3Leon’un görüntüler için altyazı oluşturabilen ilk görüntü oluşturuculardan biri olmasıyla da öne çıktığını ve ileriye dönük daha yetenekli görüntü anlama modelleri için zemin hazırladığını söylüyor.

Meta, bu haftanın başlarında TechCrunch ile paylaşılan bir blog yazısında, “CM3Leon’un yetenekleriyle, görüntü oluşturma araçları, giriş istemlerini daha iyi takip eden daha tutarlı görüntüler üretebilir” diye yazmıştı. “CM3Leon’un çeşitli görevlerdeki güçlü performansının, aslına uygun görüntü oluşturma ve anlamaya yönelik bir adım olduğuna inanıyoruz.”

OpenAI’nin DALL-E 2’si, Google’ın Imagen ve Stable Diffusion’ı dahil olmak üzere çoğu modern görüntü oluşturucu, sanat yaratmak için difüzyon adı verilen bir sürece güvenir. Difüzyonda bir model, tamamen gürültüden oluşan bir başlangıç ​​görüntüsünden gürültüyü kademeli olarak nasıl çıkaracağını öğrenir – onu adım adım hedef komut istemine yaklaştırır.

Sonuçlar etkileyici. Ancak difüzyon, hesaplama açısından yoğundur, bu da çalıştırmayı pahalı hale getirir ve gerçek zamanlı uygulamaların çoğu pratik olmayacak kadar yavaştır.

CM3Leon, aksine, metin veya resimler gibi girdi verilerinin alaka düzeyini ölçmek için “dikkat” adı verilen bir mekanizmadan yararlanan bir dönüştürücü modeldir. Dikkat ve transformatörlerin diğer mimari tuhaflıkları, model eğitim hızını artırabilir ve modelleri daha kolay paralelleştirilebilir hale getirebilir. Başka bir deyişle, daha büyük ve daha büyük transformatörler, hesaplamada önemli ancak ulaşılamaz olmayan artışlarla eğitilebilir.

Ve CM3Leon eşittir Daha Çoğu transformatörden daha verimli, Meta, önceki transformatör tabanlı yöntemlere göre beş kat daha az bilgi işlem ve daha küçük bir eğitim veri seti gerektirdiğini iddia ediyor.

İlginç bir şekilde, OpenAI, birkaç yıl önce transformatörleri bir görüntü oluşturma aracı olarak adlı bir modelle keşfetti. Görüntü GPT’si. Ama nihayetinde yayılma lehine bu fikri terk etti ve yakında “tutarlılığa” geçebilir.

CM3Leon’u eğitmek için Meta, Shutterstock’tan milyonlarca lisanslı görselden oluşan bir veri seti kullandı. Meta’nın oluşturduğu çeşitli CM3Leon sürümleri arasında en yeteneklisi, DALL-E 2’nin iki katından fazla olan 7 milyar parametreye sahiptir. (Parametreler, modelin eğitim verilerinden öğrenilen parçalarıdır ve temel olarak modelin bir problem üzerindeki becerisini tanımlar, metin oluşturmak gibi — veya bu durumda resimler.)

CM3Leon’un daha güçlü performansının anahtarlarından biri, denetimli ince ayar veya kısaca SFT adı verilen bir tekniktir. SFT, OpenAI’nin ChatGPT’si gibi metin üreten modelleri büyük bir etki yaratacak şekilde eğitmek için kullanıldı, ancak Meta, bunun görüntü alanına uygulandığında da yararlı olabileceğini teorileştirdi. Aslında, komut ayarı CM3Leon’un performansını yalnızca görüntü oluşturmada değil, aynı zamanda görüntü altyazısı yazmada da geliştirerek, görüntülerle ilgili soruları yanıtlamasına ve metin talimatlarını izleyerek görüntüleri düzenlemesine olanak sağladı (örn. “gökyüzünün rengini parlak maviye çevir”).

Çoğu görüntü oluşturucu, “karmaşık” nesnelerle ve çok fazla kısıtlama içeren metin istemleriyle mücadele eder. Ancak CM3Leon bunu yapmıyor – ya da en azından eskisi kadar sık ​​değil. Özenle seçilmiş birkaç örnekte Meta, CM3Leon’a “Sahra çölünde hasır şapka ve neon güneş gözlüğü takan küçük bir kaktüs”, “Bir insan elinin yakın plan fotoğrafı, el modeli”, “Bir rakun ana bir samuray kılıcıyla destansı bir savaşa hazırlanan bir Anime karakteri” ve “’1991′ metniyle Fantezi tarzında bir dur işareti.”

Karşılaştırma amacıyla, aynı istemleri DALL-E 2’de çalıştırdım. Bazı sonuçlar birbirine yakındı. Ancak CM3Leon görüntüleri genel olarak komut istemine daha yakın ve gözlerim için daha ayrıntılıydı, tabela en bariz örnekti. (Yakın zamana kadar, difüzyon modelleri hem metni hem de insan anatomisini nispeten zayıf bir şekilde ele alıyordu.)

Meta görüntü üreteci

Meta’nın görüntü üreteci. Görsel Kaynakları: Meta

DALL-E 2

DALL-E 2 sonuçları. Görsel Kaynakları: DALL-E 2

CM3Leon, mevcut görüntüleri düzenleme talimatlarını da anlayabilir. Örneğin, “İçinde lavabo ve ayna bulunan bir odanın yüksek kaliteli görüntüsünü oluştur (199, 130)” istemi verildiğinde, model görsel olarak tutarlı bir şey üretebilir ve Meta’nın belirttiği gibi, “Bağlamsal olarak uygun” – oda, lavabo, ayna, şişe ve hepsi. DALL-E 2, bazen istemde belirtilen nesneleri tamamen atlayarak, bunun gibi istemlerin nüanslarını algılamakta tamamen başarısız olur.

Ve tabii ki, DALL-E 2’den farklı olarak CM3Leon, kısa veya uzun alt yazılar oluşturmak ve belirli bir görüntüyle ilgili soruları yanıtlamak için bir dizi istemi takip edebilir. Meta, bu alanlarda, eğitim verilerinde daha az metin görmesine rağmen, modelin özel resim alt yazısı oluşturma modellerinden (örn. Flamingo, OpenFlamingo) bile daha iyi performans gösterdiğini iddia ediyor.

Peki ya önyargı? DALL-E 2 gibi üretken yapay zeka modellerinin, sonuçta, çoğunlukla beyaz adamları tasvir eden – “CEO” veya “yönetmen” gibi – otorite konumlarının görüntülerini oluşturarak toplumsal önyargıları güçlendirdiği bulundu. Meta, yalnızca CM3Leon’un “eğitim verilerinde mevcut olan tüm önyargıları yansıtabileceğini” söyleyerek bu soruyu yanıtsız bırakıyor.

Şirket, “Yapay zeka endüstrisi gelişmeye devam ederken, CM3Leon gibi üretken modeller giderek daha karmaşık hale geliyor” diye yazıyor. Sektör, bu zorlukları anlama ve ele alma konusunda henüz ilk aşamalarında olsa da, şeffaflığın ilerlemeyi hızlandırmanın anahtarı olacağına inanıyoruz.”

Meta, CM3Leon’u piyasaya sürmeyi planlayıp planlamadığını veya ne zaman planladığını söylemedi. Açık kaynaklı sanat üreteçleri etrafında dönen tartışmalar göz önüne alındığında, nefesimi tutmazdım.



genel-24