Yerel ve mobil AI görüntü üretimi, geleceğin dalgası olabilir.
Çoğumuz şimdiye kadar üretken görüntü oluşturmayla biraz uğraşmışızdır. Bir metin alanına tuhaf, küçük bir istem giriyoruz ve Stable Diffusion, Midjourney veya DALL-E gibi bir çevrimiçi platform güzel, tuhaf veya her ikisini de tükürüyor. Tüm bu platformların ortak noktalarından biri, çevrimiçi bir bağlantıya duyulan ihtiyaçtır. Ya benzer – belki daha iyi – Üretken AI görüntü oluşturmayı yalnızca elinizde telefonla ve İnternet veya Bulut bağlantısı olmadan yapmanın bir yolu olsaydı? Qualcomm, adı hiç de korkutucu olmayan ControlNet’te bir çözümü olduğunu düşünüyor.
Bu hafta Bilgisayarla Görü ve Örüntü Tanıma Konferansında açıklandı (CVPR) Vancouver, Kanada’da ControlNet, iki cazip temel avantajı olan yeni bir mobil AI görüntü oluşturma modelidir: 1) Model yereldir, bu nedenle ControlNet, çevrimiçi bağlantıya ihtiyaç duymadan hemen hemen her platformda çalışabilir. 2) Bir yapay zeka görüntüsü oluşturmak için yalnızca metin kullanmak yerine ControlNet, sağladığınız bir tohum görüntüyle başlar ve ardından bir metin istemine göre onu işler.
Bazı açılardan bu, mevcut görüntüleri geliştirmek için AI bölümleri oluşturabilen Adobe’nin Firefly AI’sine benzer. Ancak, bu modelin de çalışması için çevrimiçi bir bağlantıya ihtiyacı var.
Kısmen Stable Diffusion’a dayalı olan ancak modelin mevcut 1 milyar parametresine fazladan yarım milyar parametre ekleyen ve üçüncü taraf şirketler tarafından serbestçe kullanılabilen bu açık kaynak modelin piyasaya sürülmesi saf bir fedakarlık değildir.
Elbette ControlNet Windows, Mac, iOS ve Android’de çalışabilir, ancak Qualcomm’un Snapdragon platformunda ve özellikle Snapdragon 8. Nesil’deki Hexagon dijital sinyal işlemcisinde (DSP) çalışmadığı sürece neredeyse o kadar hızlı olmayacaktır. Samsung Galaxy S23 Ultra’daki gibi 2 mobil işlemci.

Gördüğüm demolarda, ControlNet sıkıcı bir ofis alanı görüntüsünü turuncu duvarlarla dolu 1970’ler temalı bir görünüme dönüştürmeyi ve ardından Barselona’nın sokaklarını akan kanallara dönüştürmeyi başardı. Ofis görüntüsü, aslına uygunluğu açısından büyüleyiciydi. Barselona’daki, ateşli bir Van Gogh’un işi gibi görünüyordu.
ControlNet, resimlerde bulduğu temel şekilleri ve yapıları alarak ve etraflarında çizerek işini yapar. Yine de çıktının hızı ve kalitesi, üçüncü taraf donanım ve yazılım geliştiricilerin kesinlikle ilgileneceği anlamına gelir. Özellikle yerel bilgi işlemin bariz faydaları nedeniyle (Apple’ın yapay zeka çalışmalarının çoğu için zaten tercih ettiği bir şey).

ControlNet, yeni veya değiştirilmiş görüntüler oluşturmak için mutlaka tam biçimli fotoğraflara ihtiyaç duymaz. Kaba bir taslak ve bir metin istemi bile ilginç ve belki de yararlı bir şey üretebilir. Qualcomm tarafından sağlanan bir demo görüntüsünde, bir şekilde orijinal çizime benzeyen sürrealist bir kediye dönüşen bir yavru kedinin kaba bir taslağını gösteriyorlar.
Yerel yapay zeka üretimiyle, orijinal tohum görüntünüz buluta geri gönderilmez, bilgi istemi herhangi bir üçüncü tarafla paylaşılmaz veya uzak sunucularda saklanmaz. Çoğu mahremiyet savunucusunun tercih edeceği gibi kapalı bir döngüdür.

Qualcomm, ControlNet SDK’larını Hexagon üzerinde programlamaya ve test etmeye başlamak isteyen geliştiricilere sunuyor. Gelecekte ControlNet tabanlı ürünleri kimin piyasaya sürebileceğine gelince, bunu söylemek zor. Qualcomm, doğrudan tüketicilere hiçbir şey satmadığı için satmayacak.
Uzun süredir ortak olan Samsung, gerçek bir olasılık. Yerel bir ControlNet tabanlı uygulama ile Samsung Galaxy S24 veya S25 Ultra’yı hayal edin. Veya belki de Samsung, bunu doğrudan fotoğraf veya kamera uygulamasına yerleştirir. Değeri ne olursa olsun, gördüğüm demo bir Samsung Galaxy S23 Ultra üzerinde çalışıyordu.


