Metinden görüntüye yapay zeka programları yeni bir şey değil. Gerçekten de, DALL-E gibi mevcut sinir ağları, kısa ama açıklayıcı cümlelerden basit, fotogerçekçi görüntüler üretme yetenekleriyle bizi etkiledi.

Ama bu hafta tanıştım görüntü (yeni sekmede açılır). Google Research’ün Beyin Ekibi tarafından geliştirilen Imagen, DALL-E ve LDM’ye benzer bir yapay zekadır. Ancak, Beyin Takımı’nın Imagen ile amacı, onları oluşturmak için aynı kısa ve açıklayıcı cümle yöntemini kullanarak daha yüksek düzeyde doğruluk ve aslına sahip görüntüler oluşturmaktır.

Bu tür cümlelere bir örnek – Imagen web sitesindeki gösterilere göre – “Bir kovboy şapkası ve siyah deri ceket giymiş, bir dağın tepesinde bisiklete binen bulanık bir pandanın fotoğrafı” olabilir. Bu oldukça ağız dolusu, ancak cümle, AI’nın her bir öğeyi kendi kriterleri olarak tanımlayabileceği şekilde yapılandırılmıştır.

AI daha sonra cümlenin her bir bölümünü sindirilebilir bir bilgi parçası olarak analiz eder ve bu cümleyle mümkün olduğunca yakından ilgili bir görüntü üretmeye çalışır. Ve burada ve orada bazı tekinsizlikler veya tuhaflıklar dışında, Imagen bunu şaşırtıcı derecede hızlı ve doğru sonuçlarla yapabilir.

Biraz fazla sağlıklı mı?

Imagen’i veya diğer sinir ağlarını kendiniz kontrol ettiyseniz, muhtemelen belirli birkaç konuya yoğun bir şekilde odaklanıldığını fark etmişsinizdir. Örneğin DALL-E, saatler veya tuvaletler gibi günlük ev eşyalarına dayalı görüntüler oluşturmayı sever. Imagen, en azından şimdilik, sevimli hayvanları görüntü oluşturma yeteneklerinin önüne koymuş gibi görünüyor. Ama aslında bunun için çok iyi bir sebep var.

Google’ın Beyin Ekibi, Imagen’in işleri nispeten zararsız tuttuğu gerçeğinden çekinmiyor. Ekip, oldukça uzun bir sorumluluk reddinin parçası olarak, sinir ağlarının ırksal klişeler gibi zararlı içerikler oluşturmak veya toksik ideolojileri zorlamak için kullanılabileceğinin çok iyi farkında. Imagen, bu tür uygunsuz içeriği barındırdığı bilinen bir veri kümesini bile kullanır.

Brain Team, “Eğitim verilerimizin bir alt kümesi, pornografik görüntüler ve zehirli dil gibi istenmeyen içeriği ve gürültüyü kaldırmak için filtrelenirken,” ayrıca, aşağıdakiler dahil olmak üzere çok çeşitli uygunsuz içerik içerdiği bilinen LAION-400M veri kümesini kullandık. pornografik görüntüler, ırkçı hakaretler ve zararlı sosyal klişeler.

“Imagen, kürlenmemiş web ölçeğindeki veriler üzerinde eğitilmiş metin kodlayıcılara güveniyor ve bu nedenle büyük dil modellerinin sosyal önyargılarını ve sınırlamalarını devralıyor.”

Google’ın Beyin Ekibi’nin, en azından AI’nın kötü amaçlarla kullanılmasını önlemek için daha fazla “güvenlik” geliştirene kadar, Imagen’i kamu kullanımı için yayınlama planının olmamasının nedeni de budur. Sonuç olarak, web sitesindeki önizleme, yalnızca seçilmiş birkaç değişkenle sınırlıdır.

Sonuçta, doğru çağrı. Geçmişte, son derece istenmeyen sonuçlarla çevrimiçi halka sunulan AI programlarının örnekleri olmuştur. Yaklaşık beş yıl önce sosyal medya platformuna getirilen bir AI Twitter hesabı olan Microsoft’un Tay’ını hatırlayabilirsiniz.

Tay, Microsoft adına oldukça cesur bir deneydi. Amacı, bir AI’nın bir sosyal medya ortamında gerçek insanlara nasıl tepki vereceğini ve onlarla nasıl etkileşime gireceğini görmekti. Ancak, birkaç saat içinde Tay, sağlıklı bir sohbet robotundan Yahudi karşıtı konuşma noktaları dağıtıcısına dönüştü. Bu, botun Microsoft’a göre “modellenmesine, temizlenmesine ve filtrelenmesine” rağmen oldu (teşekkürler, Sınır).

Tay gibi AI tarafından belirlenen emsal göz önüne alındığında, Imagen’in neden hüküm sürdüğünü görmek kolay. Açıkça, kapsamlı filtreleme bile yeterli olmayabilir.

Hala mükemmel olmaktan uzak

Imagen’den son derece etkilenmiş ve her türden tuhaf resim oluşturmak için cümleleri karıştırıp eşleştirirken çok eğlenmiş olsam da, kesinlikle çok inandırıcı olduğunu düşündüğüm bir şey değil. En azından şimdilik değil.

Imagen çoğu zaman ürkütücü derecede komik sonuçlar verdi. Özellikle hayvanlar, genellikle her türlü tuhaf oranlarda ortaya çıktı. Koca kafalı bir rakun ya da bisikletin gidonunu tutan insan benzeri kıvrımlı kolları görmek oldukça yaygın bir manzaraydı. Çok komik olsa da, fotogerçekçilikle harmanlanan bu tuhaf sonuçlar genellikle rahatsız edici derecede esrarengiz sonuçlar ortaya çıkardı.

Yağlıboya resim yapma seçeneği aslında çok daha inandırıcıydı ve Imagen’in burada üretebildiği şeylerin çoğu bir okul projesinde yersiz görünmezdi. Ve bunu mümkün olan en güzel şekilde söylüyorum. Görünüşe göre, gitar tıngırdatan bir İran kedisi, gerçekçi bir fotoğraftan çok daha inandırıcı bir şekilde bir tabloya dönüşüyor.

Belirtildiği gibi, yakın zamanda Imagen’in halka açık bir sürümünü almayacağız. Ya da hiç, bu konuda. Yapay zeka programlarının ve sinir ağlarının hoş olmayan içerik üretebilmesinin yarattığı riskler hala çok büyük. Şimdilik, Imagen’in bir dağdan aşağı kaykay yapan komik kovboy şapkası takan hayvanlar üretmek için biraz zaman harcamak isteyenler için eğlenceli küçük bir merak olmasından memnunum.



genel-6