Yapay zekalar kolaylıkla SAT sınavında başarılı olmak, büyük satranç ustalarını yenmek ve hiçbir şeymiş gibi kodlarda hata ayıklamak. Ancak heceleme yarışmasında bazı ortaokul öğrencilerine karşı bir yapay zeka koyarsanız, yayılma diyebileceğinizden daha hızlı bir şekilde ortadan kaldırılacaktır.
Yapay zekada gördüğümüz tüm ilerlemelere rağmen hala heceleyemiyor. DALL-E gibi metin-görüntü oluşturuculardan bir Meksika restoranı için menü oluşturmasını isterseniz, diğer anlamsız sözler denizinin ortasında “taao”, “burto” ve “enchida” gibi bazı iştah açıcı öğeleri görebilirsiniz.
Ve ChatGPT sizin için makalelerinizi yazabilirken, ondan “A” veya “E” harfleri olmayan 10 harfli bir kelime bulmasını istemeniz komik derecede beceriksizdir (bana “yün” dedi). Bu arada, bir arkadaşımız “yeni gönderi” yazan bir çıkartma oluşturmak için Instagram’ın yapay zekasını kullanmaya çalıştığında, bir aile web sitesi olan TechCrunch’ta tekrarlamamıza izin verilmeyen bir şeyi söylüyormuş gibi görünen bir grafik oluşturdu.
Kurucu ortağı Asmelash Teka Hadgu, “Görüntü oluşturucular, arabalar ve insan yüzleri gibi eserler üzerinde çok daha iyi performans gösterme eğilimindeyken, parmaklar ve el yazısı gibi daha küçük şeylerde daha az performans gösteriyor” dedi. Lesan ve bir arkadaşım DAIR Enstitüsü.
Görüntü ve metin oluşturucuların arkasında yatan teknoloji farklıdır ancak her iki model türü de yazım gibi ayrıntılar konusunda benzer zorluklar yaşamaktadır. Görüntü oluşturucular genellikle görüntüyü gürültüden yeniden oluşturan yayılma modellerini kullanır. Metin üreteçleri söz konusu olduğunda, büyük dil modelleri (LLM’ler), istemlerinizi insan beyni gibi okuyor ve yanıtlıyor gibi görünebilir – ancak aslında istemin desenini gizli alanındaki bir desenle eşleştirmek için karmaşık matematik kullanıyorlar. bir cevapla kalıba devam etmesine izin vermek.
Hagdu, TechCrunch’a “Görüntü oluşturmak için kullanılan en son algoritma türü olan difüzyon modelleri, belirli bir girişi yeniden yapılandırıyor” dedi. “Bir görüntü üzerindeki yazıların çok çok küçük bir parça olduğunu varsayabiliriz, dolayısıyla görüntü oluşturucu bu piksellerin daha fazlasını kapsayan desenleri öğrenir.”
Algoritmalar, eğitim verilerinde görülene benzeyen bir şeyi yeniden yaratmaya teşvik edilir, ancak doğal olarak bizim doğal olarak kabul ettiğimiz kuralları bilmiyorlar – “merhaba”nın “heeelllooo” olarak yazılmadığını ve genellikle insan elinin kullandığını beş parmak.
Alberta Üniversitesi’nde yapay zeka araştırmacısı ve yardımcı doçent olan Matthew Guzdial, “Geçen yıl bile tüm bu modellerin parmakları gerçekten kötüydü ve bu da metinle tamamen aynı sorun.” dedi. “Yerel olarak bu konuda gerçekten iyiye gidiyorlar, yani üzerinde altı veya yedi parmak olan bir ele baktığınızda, ‘Vay canına, bu bir parmağa benziyor’ diyebilirsiniz. Benzer şekilde, oluşturulan metinde bunun ‘H’ye, bunun da ‘P’ye benzediğini söyleyebilirsiniz ancak tüm bunları bir arada yapılandırma konusunda gerçekten kötüler.”
Mühendisler, yapay zekaya ellerin nasıl görünmesi gerektiğini öğretmek için özel olarak tasarlanmış eğitim modelleriyle veri kümelerini genişleterek bu sorunları iyileştirebilir. Ancak uzmanlar bu yazım sorunlarının bu kadar çabuk çözüleceğini öngörmüyor.
“Benzer bir şey yapmayı hayal edebilirsiniz; eğer bir sürü metin oluşturursak, neyin iyi neyin kötü olduğunu ayırt etmeye çalışacak bir model eğitebilirler ve bu, işleri biraz iyileştirebilir. Ancak ne yazık ki İngilizce dili gerçekten karmaşık,” dedi Guzdial TechCrunch’a. Yapay zekanın kaç farklı dille çalışmayı öğrenmesi gerektiğini düşündüğünüzde sorun daha da karmaşık hale geliyor.
Adobe Firefly gibi bazı modellere hiç metin oluşturmamaları öğretilir. “Bir restoranın menüsü” veya “reklamlı reklam panosu” gibi basit bir şey girerseniz, yemek masasında boş bir kağıt veya otoyolda beyaz bir reklam panosu görüntüsü elde edersiniz. Ancak isteminize yeterli ayrıntıyı koyarsanız bu korkulukları aşmak kolaydır.
“Bunu neredeyse Whac-A-Mole oynuyorlarmış gibi düşünebilirsiniz, ‘Tamam pek çok insan ellerimiz hakkında şikayet ediyor – bir sonraki modele sadece ellere yönelik yeni bir şey ekleyeceğiz’ gibi düşünebilirsiniz ve böylece vb.,” dedi Guzdial. “Fakat metin çok daha zordur. Bu nedenle ChatGPT bile gerçekten heceleyemiyor.”
Reddit, YouTube ve X’te birkaç kişi ChatGPT’nin yazım konusunda nasıl başarısız olduğunu gösteren videolar yükledi ASCII sanatı, resimler oluşturmak için metin karakterlerini kullanan eski bir internet sanat formu. Yakın zamanda video“Hızlı mühendislik kahramanının yolculuğu” olarak adlandırılan , birileri “Honda” yazan ASCII sanatı yaratarak ChatGPT’ye titizlikle rehberlik etmeye çalışıyor. Sonunda başarılı olurlar ama Odysseus’a özgü denemeler ve sıkıntılar olmadan da olmaz.
Hagdu, “Benim bir hipotezim, eğitimlerinde çok fazla ASCII sanatına sahip olmadıklarıdır” dedi. “Bu en basit açıklama.”
Ancak özünde yüksek lisans öğrencileri saniyeler içinde soneler yazabilseler bile harflerin ne olduğunu anlamıyorlar.
“LLM’ler, özellikle metin okumayan bu transformatör mimarisini temel alıyor. Bir istem girdiğinizde olan şey, bunun bir kodlamaya çevrilmesidir,” dedi Guzdial. ““The” kelimesini gördüğünde “the”nin ne anlama geldiğine dair bir kodlamaya sahiptir ancak ‘T’, ‘H’, ‘E’ hakkında bilgisi yoktur.”
Bu nedenle ChatGPT’den “O” veya “S” harfi olmadan sekiz harfli kelimelerden oluşan bir liste oluşturmasını istediğinizde bu, çoğu zaman yanlış olur. Aslında “O” veya “S”nin ne olduğunu bilmiyor (gerçi muhtemelen size mektubun Wikipedia geçmişinden alıntı yapabilir).
Kötü restoran menülerini gösteren bu DALL-E görüntüleri komik olsa da, konu yanlış bilgilerin belirlenmesi olduğunda yapay zekanın eksiklikleri faydalıdır. Şüpheli bir görüntünün gerçek mi yoksa yapay zeka tarafından mı oluşturulduğunu görmeye çalışırken, sokak tabelalarına, metin içeren tişörtlere, kitap sayfalarına veya bir dizi rastgele harfin görüntünün sentetik yapısını ele verebileceği herhangi bir şeye bakarak çok şey öğrenebiliriz. kökenler. Ve bu modeller el yapmada daha iyi hale gelmeden önce, altıncı (veya yedinci veya sekizinci) parmak da bir hediye olabilir.
Ancak Guzdial, eğer yeterince yakından bakarsak yapay zekanın yanlış yaptığının yalnızca parmaklar ve yazım olmadığını söylüyor.
“Bu modeller bu küçük, yerel sorunları her zaman gündeme getiriyor; biz özellikle bazılarını tanıma konusunda çok iyi ayarlanmış durumdayız” dedi.
Örneğin ortalama bir insan için yapay zeka tarafından oluşturulan bir müzik mağazasının görüntüsü kolayca inandırılabilir olabilir. Ancak müzik hakkında biraz bilgisi olan biri aynı görüntüyü görebilir ve bazı gitarların yedi telli olduğunu veya piyanodaki siyah ve beyaz tuşların aralıklarının yanlış olduğunu fark edebilir.
Bu yapay zeka modelleri endişe verici bir oranda gelişse de, bu araçların hâlâ bu gibi sorunlarla karşılaşması kaçınılmazdır ve bu da teknolojinin kapasitesini sınırlamaktadır.
Hagdu, “Bu somut bir ilerleme, buna hiç şüphe yok” dedi. “Fakat bu teknolojinin ulaştığı abartılı heyecan gerçekten delilik.”