Nvidia sessizce AI görüntü üretiminin en büyük zorluğunu düzeltmeye yardımcı oldu

Contents

Büyük bir atılım
Maliyet-bilgisayar krizinin çözülmesi
Bazı pürüzlü kenarlar

Yapay zeka ile ilgili temel sorunlardan biri, özellikle medya üretimi gibi görevler için Notoriary Yüksek Güç ve Hesaplama Talebidir. Cep telefonlarında, doğal olarak çalışmaya gelince, güçlü silikonlu sadece bir avuç pahalı cihaz özellik süitini çalıştırabilir. Tam olarak Bulutta Scale’da uygulandığında, pahalı bir olaydır.

Nvidia, Massachusetts Teknoloji Enstitüsü ve Tsinghua Üniversitesi’ndeki insanlarla ortaklaşa bu zorluğu sessizce ele almış olabilir. Ekip, hibrit bir AI görüntü oluşturma aracı oluşturdu KALP (Hibrit otoregresif transformatör) Essentially, en yaygın kullanılan AI görüntü oluşturma tekniklerinden ikisini birleştirir. Sonuç, önemli ölçüde daha düşük hesaplama gereksinimine sahip yanan bir hızlı araçtır.

Sadece size bir fikir ya da ne kadar hızlı olduğunu vermek için, bir bas gitar çalan bir papağan görüntüsü oluşturmasını istedim. Yaklaşık bir saniyede aşağıdaki resimle döndü. İlerleme çubuğunu neredeyse hiç takip edemedim. Aynı istemi Gemini’deki Google’ın Imagen 3 modelinden önce ittiğimde, 200 Mbps internet bağlantısında kabaca 9-10 saniye işaret ediyor.

MIT / Kalp

Büyük bir atılım

AI görüntüleri ilk kez dalgalar yapmaya başladığında, difüzyon tekniği her şeyin arkasındaydı, Openai’nin Dall-E görüntü jeneratörü, Google’ın Imagen ve kararlı difüzyon gibi ürünleri güçlendirdi. Bu yöntem, son derece yüksek seviyeli veya detaylara sahip görüntüler üretebilir. Bununla birlikte, AI görüntüleri oluşturmak için çok aşamalı bir yaklaşımdır ve sonuç olarak yavaş ve hesaplamalı olarak pahalıdır.

Son zamanlarda popülerlik kazanan ikinci yaklaşım, esas olarak Chatbots ile aynı şekilde çalışan ve bir piksel tahmin tekniği kullanarak görüntüler üreten otomatik nezaket modelleridir. Daha hızlı, aynı zamanda daha hataya açık bir yöntem veya resim oluşturma AI kullanın.

HART için cihazda demo: hibrid otoregresif transformatör ile verimli görsel üretim

MIT’deki ekip her iki yöntemi de Hart adlı tek bir pakete dönüştürdü. Sıkıştırılmış görüntü varlıklarını ayrı bir jeton olarak tahmin etmek için bir otomatik incelme modeline dayanırken, küçük bir difüzyon modeli kalite kaybını telafi etmek için geri kalanını işler. Genel yaklaşım iki kutudan sekiz adıma katılan adım sayısını azaltır.

Hart’ın arkasındaki uzmanlar, “son teknoloji difüzyon modellerinin kalitesine uyan veya kaybedilen görüntüler üretebileceğini, ancak bunu yaklaşık dokuz kat daha hızlı yapabileceğini” iddia ediyor. Hart, otoregresif bir modeli 700 milyon parametre aralığı ve 37 milyon parametreyi işleyebilen küçük bir difüzyon modeli ile birleştirir.

Hart için görüntü eğitiminin evrimi. — MIT / Kalp

Maliyet-bilgisayar krizinin çözülmesi

İlginç bir şekilde, bu hibrid araç, üst raf modellerinin kalitesini 2 milyar parametre kapasitesiyle eşleştiren görüntüler oluşturabildi. En önemlisi, Hart bu kilometre taşını dokuz kat daha hızlı bir görüntü üretim hızında elde edebildi ve% 31 daha az hesaplama kaynağı gerektirdi.

Takıma göre, düşük komplo yaklaşımı, kalbin telefonlarda ve dizüstü bilgisayarlarda yerel olarak çalışmasına izin verir, bu da büyük bir kazançtır. Şimdiye kadar, ChatGPT ve Gemini gibi en popüler kitlesel pazar ürünleri, bilgi işlem bulut sunucularında gerçekleştiğinden görüntü oluşturma için bir internet bağlantısı gerektirir.

Test videosunda ekip, Intel’in çekirdek seri işlemcisi ve bir NVIDIA Geforce RTX grafik kartı ile bir MSI dizüstü bilgisayarda yerel olarak çalıştığını sergiledi. Bu, bir servet harcamadan oyun dizüstü bilgisayarlarının çoğunda bulabileceğiniz bir kombinasyon.

AI görüntülerinin karşılaştırmalı analizi. — MIT / Kalp

Hart, saygın bir 1024 x 1024 piksel çözünürlükte 1: 1 en boy oranı görüntüsünü yapılabilir veya üretebilir. Bu görüntülerdeki ayrıntı seviyesi etkileyici ve stilistik varyasyon ve manzara doğruluğu da öyle. Testleri süresi boyunca ekip, hibrid AI aracının üç ila altı kat daha hızlı herhangi bir yerde olduğunu ve yaklaşık yedi kat highher veriminin feda ettiğini belirtti.

Gelecekteki potansiyel, Hart’ın görüntü yeteneklerini dil modelleriyle entegre ederken speküler olarak heyecan vericidir. MIT, “Gelecekte, belki de bir parça mobilya monte etmek için gereken ara adımları göstermesini isteyerek birleşik bir görme dili üretken modeliyle etkileşime girebilir” diyor.

Zaten bu fikri araştırıyorlar ve sadece ses ve video üretiminde kalp yaklaşımını test etmeyi planlıyorlar. MIT’lerde deneyebilirsiniz Web Gösterge Tablosu.

Bazı pürüzlü kenarlar

Kalite tartışmasına dalmadan önce, kalbin hala ilk aşamalarında olan bir araştırma projesi olduğunu unutmayın. Teknik tarafta, ekibin vurgulanması, çıkarım ve eğitim süreci süresi gibi birkaç sorun var.

Kalbin başarısızlıkları. — Kalp / Nadeem Sarwar

Zorluklar düzeltilebilir veya gözden kaçabilir, çünkü buradaki şeylerin daha büyük şemasında küçükler. Moreoover, HART’ın hesaplama verimliliği, hız ve gecikme açısından sunduğu saf faydalar göz önüne alındığında, herhangi bir önemli performans sorununa yol açmadan devam edebilirler.

Mektup zamanında hızlı test etme kalbimde, görüntü yaratma hızından şaşkına döndüm. Ücretsiz web aracının bir görüntü oluşturmak için iki saniyeden fazla sürdüğü bir senaryo ile karşılaştım. Üç paragraf (kabaca 200 kelimeden fazla uzunluğunda) olan istemlerle bile, Hart açıklamaya sıkıca yapışan görüntüler oluşturabildi.

AI görüntüleri kalple üretilen örneği. — Kalp / Nadeem Sarwar

Tanımlayıcı doğruluğun yanı sıra, görüntülerde bol miktarda ayrıntı vardı. Bununla birlikte, Hart bir AI görüntü üreticisi aracının tipik arızalarından muzdariptir. Rakamlar, yiyecek yemekleri yemek, karakter tutarlılığı ve perspektif yakalamada başarısız olmak gibi temel tasvirlerle mücadele eder.

İnsan bağlamında fotorializm, göze çarpan başarısızlıkları fark ettiğim bir alandır. Birkaç kez, bir yüzüğü bir kolye ile karıştırması gibi temel nesneler kavramını yanlış hale getirdi. Ancak genel olarak, bu hatalar çok, az ve temelde bekleniyor. Sağlıklı bir grup AI aracı, orada olmasına rağmen, hala doğru yapamıyor.

Genel olarak, özellikle kalbin muazzam potansiyelinden heyecan duyuyorum. MIT ve NVIDIA’nın BT’den bir ürün oluşturup oluşturmadığını veya mevcut bir üründeki hibrid AI görüntü oluşturma yaklaşımını benimseyip benimsemelerini görmek ilginç olurdu. Her iki durumda da, çok umut verici bir geleceğe bir bakış.

genel-19

Büyük bir atılım

Maliyet-bilgisayar krizinin çözülmesi

Bazı pürüzlü kenarlar

Sanal Medya

Son Eklenenler

Anthropic-Fiziksel Zeka Söylentisi AI Twitter’ı Salladı

AMD Ryzen 7700X3D, 16GB RAM ve Asus B850 Anakart Sadece $491

Warner Bros. Discovery Satışıyla İlgili Bilmeniz Gerekenler

TDC Dijital Varlık Vergisini Engellemek İçin Illinois’i Dava Etti

Etsy’nin Kriz Dönemi: Satıcılar Neden Kaçıyor?

Hasbro, Büyük Oyunlarla Yeni Stratejisini Belirliyor

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer