OpenAI, 'tutarlılık' tabanlı görüntü üreteci ile difüzyonun ötesine bakıyor - Dünyadan Güncel Teknoloji Haberleri

Görüntü oluşturma alanı hızla hareket eder. Midjourney ve Stable Diffusion gibi popüler araçlar tarafından kullanılan difüzyon modelleri elimizdekilerin en iyisi gibi görünse de, bir sonraki şey her zaman geliyor – ve OpenAI zaten basit görevleri yerine getirebilen “tutarlılık modelleri” ile bunu başarmış olabilir. DALL-E benzerlerinden çok daha hızlı.

kağıt Geçen ay bir ön baskı olarak internete koyve ana sürümleri için abartısız tantana OpenAI rezervleri eşlik etmedi. Bu hiç de şaşırtıcı değil: Bu kesinlikle sadece bir araştırma makalesi ve çok teknik. Ancak bu erken ve deneysel tekniğin sonuçları dikkate değerdir.

Tutarlılık modellerini açıklamak özellikle kolay değildir, ancak difüzyon modellerinin aksine daha anlamlıdır.

Difüzyonda bir model, tamamen gürültüden oluşan bir başlangıç görüntüsünden gürültüyü kademeli olarak nasıl çıkaracağını öğrenir ve onu adım adım hedef komut istemine yaklaştırır. Bu yaklaşım, günümüzün en etkileyici AI görüntülerini mümkün kıldı, ancak temelde, iyi sonuçlar almak için on ila binlerce adım arasında herhangi bir yerde performans göstermeye dayanıyor. Bu, çalıştırmanın pahalı olduğu ve aynı zamanda gerçek zamanlı uygulamaların pratik olmayacağı kadar yavaş olduğu anlamına gelir.

Tutarlılık modelleriyle amaç, tek bir veya en fazla iki hesaplama adımında iyi sonuçlar veren bir şey yapmaktı. Bunu yapmak için, model, bir difüzyon modeli gibi, görüntü yok etme sürecini gözlemlemek üzere eğitilir, ancak herhangi bir karartma düzeyinde (yani, az veya çok bilgi eksikken) bir görüntü almayı ve tam bir kaynak görüntü oluşturmayı öğrenir. sadece bir adım

Ama hemen şunu eklemeliyim ki, bu olan bitenin yalnızca en dandik açıklamasıdır. Bu tür bir kağıt:

Tutarlılık belgesinden temsili bir alıntı.

Ortaya çıkan görüntüler akıllara durgunluk vermiyor – görüntülerin birçoğunun iyi olduğu bile söylenemez. Ama önemli olan yüz bin değil, tek adımda üretilmiş olmalarıdır. Ayrıca tutarlılık modeli, renklendirme, ölçek yükseltme, eskiz yorumlama, doldurma vb.

Görüntü ister çoğunlukla gürültü ister çoğunlukla veri olsun, tutarlılık modelleri doğrudan nihai sonuca gider.

Bu önemlidir, çünkü makine öğrenimi araştırmasındaki model genellikle birisinin bir teknik oluşturması, başka birinin daha iyi çalışmasını sağlamanın bir yolunu bulması ve ardından diğerlerinin sizin başladığınızdan çok daha iyi sonuçlar elde etmek için hesaplama ekleyerek zamanla onu ayarlamasıdır. Hem modern difüzyon modellerine hem de ChatGPT’ye aşağı yukarı böyle ulaştık. Bu, kendi kendini sınırlayan bir süreçtir çünkü pratikte belirli bir göreve yalnızca çok fazla hesaplama ayırabilirsiniz.

Ancak bundan sonra olan şey, önceki modelin yaptığını yapabilen, ilk başta çok daha kötü ama aynı zamanda çok daha verimli olan yeni, daha verimli bir tekniğin tanımlanmasıdır. Tutarlılık modelleri, difüzyon modelleriyle doğrudan karşılaştırılamayacak kadar erken olmasına rağmen bunu göstermektedir.

Ancak başka bir düzeyde önemli çünkü şu anda dünyanın en etkili AI araştırma ekibi olan OpenAI’nin yeni nesil kullanım durumlarında aktif olarak geçmiş yayılıma nasıl baktığını gösteriyor.

Evet, bir GPU kümesi kullanarak bir veya iki dakikada 1500 yineleme yapmak istiyorsanız, difüzyon modellerinden çarpıcı sonuçlar alabilirsiniz. Ancak, birinin telefonunda pilini tüketmeden bir görüntü oluşturucu çalıştırmak veya örneğin canlı bir sohbet arabiriminde ultra hızlı sonuçlar sağlamak isterseniz ne olur? Difüzyon, bu iş için kesinlikle yanlış bir araçtır ve OpenAI araştırmacıları aktif olarak doğru olanı arıyorlar – diğer yazarların, Yang Song, Prafulla Dhariwal ve diğer yazarların katkılarını küçümsememek için, bu alanda iyi bilinen bir isim olan Ilya Sutskever dahil. Mark Chen.

Tutarlılık modellerinin OpenAI için bir sonraki büyük adım mı yoksa sadağında başka bir ok mu olduğu – gelecek neredeyse kesinlikle hem çok modlu hem de çok modeldir – araştırmanın nasıl sonuçlanacağına bağlı olacaktır. Daha fazla ayrıntı istedim ve araştırmacılardan yanıt alırsam bu gönderiyi güncelleyeceğim.

genel-24

OpenAI, ‘tutarlılık’ tabanlı görüntü üreteci ile difüzyonun ötesine bakıyor

Byteknomers

By teknomers

Benzer İçerikler

Risk sermayedarları ve ordu, yollara ihtiyaç duymayan kendi kendini süren girişimleri besliyor

Gigabyte B650 Aorus Elite AX Ice Anakart İncelemesi: Buzlu, biraz pahalı, bol miktarda USB

Bu rüya gibi Edge+ (2022) fırsatı hâlâ Amazon’da mevcut

Destiny 2 Osiris Haritası Denemeleri ve 17 Mayıs 2024 Ödülleri

Solo Leveling Soundtrack’in Vinil Sürümü Artık Ön Siparişe Hazır

Söylenti: Total War Studio Creative Assembly, Star Wars Strateji Oyunu Üzerinde Çalışıyor

Bu roguelike “onları düzelt” 2024’ün en iyi bulmaca oyunu olabilir

Garmin Vivoactive 5 kısa bir süreliğine Amazon’da daha da iyi bir fiyata düşüyor

Pixel 8a, PhoneArena Kamera Skorunda Pixel 8 ve Galaxy S24’ün gerisinde kalıyor ancak orta sınıftaki ezeli rakibini geride bırakıyor

Bazı Bozo’lardan gelen sahte söylenti, Apple’ın iPhone’daki palyaço emojisini kaldırdığını iddia etti

Yeni raporlar, devasa ekranlarını sergilerken Motorola Razr 50’nin teknik özelliklerini de detaylandırıyor

‘Babam roketle havaya uçuyor!’ Fransız işadamı lansmana hazırlanıyor

Ateşli Kızıl Gezegen Yoğun Volkanik Aktiviteyle Öfkeleniyor

Astronomi ve jeofizikteki zorbalığın üstesinden gelmek için ‘acil’ değişim gerekiyor

İnsanlığın İlk Ay Uzay İstasyonu Building Gateway

İlginizi Çekebilir

Risk sermayedarları ve ordu, yollara ihtiyaç duymayan kendi kendini süren girişimleri besliyor

Gigabyte B650 Aorus Elite AX Ice Anakart İncelemesi: Buzlu, biraz pahalı, bol miktarda USB

Bu rüya gibi Edge+ (2022) fırsatı hâlâ Amazon’da mevcut

Preakness Stakes 2024’ü nerede izlemeli: At yarışı canlı yayını bugün her yerden ücretsiz çevrimiçi olarak izlenebilir