Yapay zeka ile ilgili temel sorunlardan biri, özellikle medya üretimi gibi görevler için Notoriary Yüksek Güç ve Hesaplama Talebidir. Cep telefonlarında, doğal olarak çalışmaya gelince, güçlü silikonlu sadece bir avuç pahalı cihaz özellik süitini çalıştırabilir. Tam olarak Bulutta Scale’da uygulandığında, pahalı bir olaydır.
Nvidia, Massachusetts Teknoloji Enstitüsü ve Tsinghua Üniversitesi’ndeki insanlarla ortaklaşa bu zorluğu sessizce ele almış olabilir. Ekip, hibrit bir AI görüntü oluşturma aracı oluşturdu KALP (Hibrit otoregresif transformatör) Essentially, en yaygın kullanılan AI görüntü oluşturma tekniklerinden ikisini birleştirir. Sonuç, önemli ölçüde daha düşük hesaplama gereksinimine sahip yanan bir hızlı araçtır.
Sadece size bir fikir ya da ne kadar hızlı olduğunu vermek için, bir bas gitar çalan bir papağan görüntüsü oluşturmasını istedim. Yaklaşık bir saniyede aşağıdaki resimle döndü. İlerleme çubuğunu neredeyse hiç takip edemedim. Aynı istemi Gemini’deki Google’ın Imagen 3 modelinden önce ittiğimde, 200 Mbps internet bağlantısında kabaca 9-10 saniye işaret ediyor.
Büyük bir atılım
AI görüntüleri ilk kez dalgalar yapmaya başladığında, difüzyon tekniği her şeyin arkasındaydı, Openai’nin Dall-E görüntü jeneratörü, Google’ın Imagen ve kararlı difüzyon gibi ürünleri güçlendirdi. Bu yöntem, son derece yüksek seviyeli veya detaylara sahip görüntüler üretebilir. Bununla birlikte, AI görüntüleri oluşturmak için çok aşamalı bir yaklaşımdır ve sonuç olarak yavaş ve hesaplamalı olarak pahalıdır.
Son zamanlarda popülerlik kazanan ikinci yaklaşım, esas olarak Chatbots ile aynı şekilde çalışan ve bir piksel tahmin tekniği kullanarak görüntüler üreten otomatik nezaket modelleridir. Daha hızlı, aynı zamanda daha hataya açık bir yöntem veya resim oluşturma AI kullanın.
MIT’deki ekip her iki yöntemi de Hart adlı tek bir pakete dönüştürdü. Sıkıştırılmış görüntü varlıklarını ayrı bir jeton olarak tahmin etmek için bir otomatik incelme modeline dayanırken, küçük bir difüzyon modeli kalite kaybını telafi etmek için geri kalanını işler. Genel yaklaşım iki kutudan sekiz adıma katılan adım sayısını azaltır.
Hart’ın arkasındaki uzmanlar, “son teknoloji difüzyon modellerinin kalitesine uyan veya kaybedilen görüntüler üretebileceğini, ancak bunu yaklaşık dokuz kat daha hızlı yapabileceğini” iddia ediyor. Hart, otoregresif bir modeli 700 milyon parametre aralığı ve 37 milyon parametreyi işleyebilen küçük bir difüzyon modeli ile birleştirir.

Maliyet-bilgisayar krizinin çözülmesi
İlginç bir şekilde, bu hibrid araç, üst raf modellerinin kalitesini 2 milyar parametre kapasitesiyle eşleştiren görüntüler oluşturabildi. En önemlisi, Hart bu kilometre taşını dokuz kat daha hızlı bir görüntü üretim hızında elde edebildi ve% 31 daha az hesaplama kaynağı gerektirdi.
Takıma göre, düşük komplo yaklaşımı, kalbin telefonlarda ve dizüstü bilgisayarlarda yerel olarak çalışmasına izin verir, bu da büyük bir kazançtır. Şimdiye kadar, ChatGPT ve Gemini gibi en popüler kitlesel pazar ürünleri, bilgi işlem bulut sunucularında gerçekleştiğinden görüntü oluşturma için bir internet bağlantısı gerektirir.
Test videosunda ekip, Intel’in çekirdek seri işlemcisi ve bir NVIDIA Geforce RTX grafik kartı ile bir MSI dizüstü bilgisayarda yerel olarak çalıştığını sergiledi. Bu, bir servet harcamadan oyun dizüstü bilgisayarlarının çoğunda bulabileceğiniz bir kombinasyon.

Hart, saygın bir 1024 x 1024 piksel çözünürlükte 1: 1 en boy oranı görüntüsünü yapılabilir veya üretebilir. Bu görüntülerdeki ayrıntı seviyesi etkileyici ve stilistik varyasyon ve manzara doğruluğu da öyle. Testleri süresi boyunca ekip, hibrid AI aracının üç ila altı kat daha hızlı herhangi bir yerde olduğunu ve yaklaşık yedi kat highher veriminin feda ettiğini belirtti.
Gelecekteki potansiyel, Hart’ın görüntü yeteneklerini dil modelleriyle entegre ederken speküler olarak heyecan vericidir. MIT, “Gelecekte, belki de bir parça mobilya monte etmek için gereken ara adımları göstermesini isteyerek birleşik bir görme dili üretken modeliyle etkileşime girebilir” diyor.
Zaten bu fikri araştırıyorlar ve sadece ses ve video üretiminde kalp yaklaşımını test etmeyi planlıyorlar. MIT’lerde deneyebilirsiniz Web Gösterge Tablosu.
Bazı pürüzlü kenarlar
Kalite tartışmasına dalmadan önce, kalbin hala ilk aşamalarında olan bir araştırma projesi olduğunu unutmayın. Teknik tarafta, ekibin vurgulanması, çıkarım ve eğitim süreci süresi gibi birkaç sorun var.

Zorluklar düzeltilebilir veya gözden kaçabilir, çünkü buradaki şeylerin daha büyük şemasında küçükler. Moreoover, HART’ın hesaplama verimliliği, hız ve gecikme açısından sunduğu saf faydalar göz önüne alındığında, herhangi bir önemli performans sorununa yol açmadan devam edebilirler.
Mektup zamanında hızlı test etme kalbimde, görüntü yaratma hızından şaşkına döndüm. Ücretsiz web aracının bir görüntü oluşturmak için iki saniyeden fazla sürdüğü bir senaryo ile karşılaştım. Üç paragraf (kabaca 200 kelimeden fazla uzunluğunda) olan istemlerle bile, Hart açıklamaya sıkıca yapışan görüntüler oluşturabildi.

Tanımlayıcı doğruluğun yanı sıra, görüntülerde bol miktarda ayrıntı vardı. Bununla birlikte, Hart bir AI görüntü üreticisi aracının tipik arızalarından muzdariptir. Rakamlar, yiyecek yemekleri yemek, karakter tutarlılığı ve perspektif yakalamada başarısız olmak gibi temel tasvirlerle mücadele eder.
İnsan bağlamında fotorializm, göze çarpan başarısızlıkları fark ettiğim bir alandır. Birkaç kez, bir yüzüğü bir kolye ile karıştırması gibi temel nesneler kavramını yanlış hale getirdi. Ancak genel olarak, bu hatalar çok, az ve temelde bekleniyor. Sağlıklı bir grup AI aracı, orada olmasına rağmen, hala doğru yapamıyor.
Genel olarak, özellikle kalbin muazzam potansiyelinden heyecan duyuyorum. MIT ve NVIDIA’nın BT’den bir ürün oluşturup oluşturmadığını veya mevcut bir üründeki hibrid AI görüntü oluşturma yaklaşımını benimseyip benimsemelerini görmek ilginç olurdu. Her iki durumda da, çok umut verici bir geleceğe bir bakış.


