Bir şirket yeni bir yapay zeka video oluşturucusunu piyasaya sürdüğünde, birisinin onu aktör Will Smith’in spagetti yerken videosunu çekmek için kullanması çok uzun sürmez.
Bu hem bir meme hem de bir referans haline geldi: Yeni bir video oluşturucunun Smith’in bir kase erişteyi höpürdeterek yutmasını gerçekçi bir şekilde oluşturup oluşturamayacağını görmek. Smith’in kendisi parodisi yapılmış Şubat ayındaki bir Instagram gönderisindeki trend.
Google Veo 2 bunu başardı.
Artık sonunda spagetti yiyoruz. pic.twitter.com/AZO81w8JC0
— Jerrod Lew (@jerrod_lew) 17 Aralık 2024
Will Smith ve makarna, 2024’te yapay zeka topluluğunu kasıp kavuracak birkaç tuhaf “gayri resmi” kriterden yalnızca biri. 16 yaşındaki bir geliştirici, yapay zekanın Minecraft üzerinde kontrol sahibi olmasını sağlayan ve yapılar tasarlama yeteneğini test eden bir uygulama geliştirdi. Başka bir yerde İngiliz bir programcı, yapay zekanın Pictionary ve Connect 4 gibi oyunları birbirine karşı oynadığı bir platform yarattı.
Yapay zekanın performansına ilişkin daha fazla akademik test yok gibi değil. Peki neden daha tuhaf olanlar havaya uçtu?

Birincisi, endüstri standardı yapay zeka kriterlerinin çoğu, ortalama bir insana pek bir şey anlatmıyor. Şirketler sıklıkla yapay zekalarının Matematik Olimpiyatı sınavlarındaki soruları yanıtlama veya doktora düzeyindeki sorunlara makul çözümler bulma becerisinden bahsediyor. Ancak çoğu insan (sizinki de dahil) chatbotları aşağıdaki gibi şeyler için kullanıyor: e-postalara ve temel araştırmalara yanıt verme.
Kitle kaynaklı sektör önlemlerinin mutlaka daha iyi veya daha bilgilendirici olması gerekmez.
Örneğin, birçok yapay zeka meraklısının ve geliştiricinin takıntılı bir şekilde takip ettiği halka açık bir kıyaslama olan Chatbot Arena’yı ele alalım. Chatbot Arena, web üzerindeki herkesin yapay zekanın bir web uygulaması oluşturmak veya bir görüntü oluşturmak gibi belirli görevlerde ne kadar iyi performans gösterdiğini değerlendirmesine olanak tanır. Ancak değerlendiriciler temsili olma eğiliminde değiller (çoğu yapay zeka ve teknoloji sektörü çevrelerinden geliyor) ve oylarını kişisel, belirlenmesi zor tercihlere göre veriyorlar.

Wharton’da yönetim profesörü Ethan Mollick yakın zamanda bir konuşmasında şunu belirtti: postalamak X’te, birçok yapay zeka endüstrisi kıyaslamasındaki bir başka sorun: bir sistemin performansını ortalama bir insanınkiyle karşılaştırmıyorlar.
Mollick, “Tıpta, hukukta, tavsiye kalitesinde vb. farklı kuruluşlardan 30 farklı kriterin bulunmaması gerçekten utanç verici, çünkü insanlar bu şeyler için sistemleri kullanıyor” diye yazdı.
Connect 4, Minecraft ve Will Smith’in spagetti yemesi gibi tuhaf yapay zeka testleri kesinlikle Olumsuz ampirik – hatta bunların hepsi genelleştirilebilir. Bir yapay zekanın Will Smith testini başarması onun örneğin iyi bir hamburger üreteceği anlamına gelmez.

Yapay zeka kıyaslamaları hakkında konuştuğum bir uzman, yapay zeka topluluğunun, yapay zekanın dar alanlardaki yeteneği yerine aşağı yönlü etkilerine odaklanmasını önerdi. Bu mantıklı. Ancak tuhaf kriterlerin yakın zamanda ortadan kalkmayacağına dair bir his var içimde. Sadece eğlenceli değiller; yapay zekanın Minecraft kaleleri inşa etmesini izlemeyi kim sevmez ki? – ama anlaşılması kolaydır. Meslektaşım Max Zeff’in yakın zamanda yazdığı gibi, endüstri yapay zeka gibi karmaşık bir teknolojiyi sindirilebilir pazarlamaya dönüştürmekle boğuşmaya devam ediyor.
Aklımdaki tek soru şu: 2025’te hangi yeni kriterler viral olacak?

