Görüntü oluşturma alanı hızla hareket eder. Midjourney ve Stable Diffusion gibi popüler araçlar tarafından kullanılan difüzyon modelleri elimizdekilerin en iyisi gibi görünse de, bir sonraki şey her zaman geliyor – ve OpenAI zaten basit görevleri yerine getirebilen “tutarlılık modelleri” ile bunu başarmış olabilir. DALL-E benzerlerinden çok daha hızlı.
kağıt Geçen ay bir ön baskı olarak internete koyve ana sürümleri için abartısız tantana OpenAI rezervleri eşlik etmedi. Bu hiç de şaşırtıcı değil: Bu kesinlikle sadece bir araştırma makalesi ve çok teknik. Ancak bu erken ve deneysel tekniğin sonuçları dikkate değerdir.
Tutarlılık modellerini açıklamak özellikle kolay değildir, ancak difüzyon modellerinin aksine daha anlamlıdır.
Difüzyonda bir model, tamamen gürültüden oluşan bir başlangıç görüntüsünden gürültüyü kademeli olarak nasıl çıkaracağını öğrenir ve onu adım adım hedef komut istemine yaklaştırır. Bu yaklaşım, günümüzün en etkileyici AI görüntülerini mümkün kıldı, ancak temelde, iyi sonuçlar almak için on ila binlerce adım arasında herhangi bir yerde performans göstermeye dayanıyor. Bu, çalıştırmanın pahalı olduğu ve aynı zamanda gerçek zamanlı uygulamaların pratik olmayacağı kadar yavaş olduğu anlamına gelir.
Tutarlılık modelleriyle amaç, tek bir veya en fazla iki hesaplama adımında iyi sonuçlar veren bir şey yapmaktı. Bunu yapmak için, model, bir difüzyon modeli gibi, görüntü yok etme sürecini gözlemlemek üzere eğitilir, ancak herhangi bir karartma düzeyinde (yani, az veya çok bilgi eksikken) bir görüntü almayı ve tam bir kaynak görüntü oluşturmayı öğrenir. sadece bir adım
Ama hemen şunu eklemeliyim ki, bu olan bitenin yalnızca en dandik açıklamasıdır. Bu tür bir kağıt:
Ortaya çıkan görüntüler akıllara durgunluk vermiyor – görüntülerin birçoğunun iyi olduğu bile söylenemez. Ama önemli olan yüz bin değil, tek adımda üretilmiş olmalarıdır. Ayrıca tutarlılık modeli, renklendirme, ölçek yükseltme, eskiz yorumlama, doldurma vb.
Bu önemlidir, çünkü makine öğrenimi araştırmasındaki model genellikle birisinin bir teknik oluşturması, başka birinin daha iyi çalışmasını sağlamanın bir yolunu bulması ve ardından diğerlerinin sizin başladığınızdan çok daha iyi sonuçlar elde etmek için hesaplama ekleyerek zamanla onu ayarlamasıdır. Hem modern difüzyon modellerine hem de ChatGPT’ye aşağı yukarı böyle ulaştık. Bu, kendi kendini sınırlayan bir süreçtir çünkü pratikte belirli bir göreve yalnızca çok fazla hesaplama ayırabilirsiniz.
Ancak bundan sonra olan şey, önceki modelin yaptığını yapabilen, ilk başta çok daha kötü ama aynı zamanda çok daha verimli olan yeni, daha verimli bir tekniğin tanımlanmasıdır. Tutarlılık modelleri, difüzyon modelleriyle doğrudan karşılaştırılamayacak kadar erken olmasına rağmen bunu göstermektedir.
Ancak başka bir düzeyde önemli çünkü şu anda dünyanın en etkili AI araştırma ekibi olan OpenAI’nin yeni nesil kullanım durumlarında aktif olarak geçmiş yayılıma nasıl baktığını gösteriyor.
Evet, bir GPU kümesi kullanarak bir veya iki dakikada 1500 yineleme yapmak istiyorsanız, difüzyon modellerinden çarpıcı sonuçlar alabilirsiniz. Ancak, birinin telefonunda pilini tüketmeden bir görüntü oluşturucu çalıştırmak veya örneğin canlı bir sohbet arabiriminde ultra hızlı sonuçlar sağlamak isterseniz ne olur? Difüzyon, bu iş için kesinlikle yanlış bir araçtır ve OpenAI araştırmacıları aktif olarak doğru olanı arıyorlar – diğer yazarların, Yang Song, Prafulla Dhariwal ve diğer yazarların katkılarını küçümsememek için, bu alanda iyi bilinen bir isim olan Ilya Sutskever dahil. Mark Chen.
Tutarlılık modellerinin OpenAI için bir sonraki büyük adım mı yoksa sadağında başka bir ok mu olduğu – gelecek neredeyse kesinlikle hem çok modlu hem de çok modeldir – araştırmanın nasıl sonuçlanacağına bağlı olacaktır. Daha fazla ayrıntı istedim ve araştırmacılardan yanıt alırsam bu gönderiyi güncelleyeceğim.