Will Smith spagetti yiyor ve 2024'te yükselişe geçen diğer tuhaf yapay zeka testleri - Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film

Bir şirket yeni bir yapay zeka video oluşturucusunu piyasaya sürdüğünde, birisinin onu aktör Will Smith’in spagetti yerken videosunu çekmek için kullanması çok uzun sürmez.

Bu hem bir meme hem de bir referans haline geldi: Yeni bir video oluşturucunun Smith’in bir kase erişteyi höpürdeterek yutmasını gerçekçi bir şekilde oluşturup oluşturamayacağını görmek. Smith’in kendisi parodisi yapılmış Şubat ayındaki bir Instagram gönderisindeki trend.

Google Veo 2 bunu başardı.
Artık sonunda spagetti yiyoruz. pic.twitter.com/AZO81w8JC0
— Jerrod Lew (@jerrod_lew) 17 Aralık 2024

Will Smith ve makarna, 2024’te yapay zeka topluluğunu kasıp kavuracak birkaç tuhaf “gayri resmi” kriterden yalnızca biri. 16 yaşındaki bir geliştirici, yapay zekanın Minecraft üzerinde kontrol sahibi olmasını sağlayan ve yapılar tasarlama yeteneğini test eden bir uygulama geliştirdi. Başka bir yerde İngiliz bir programcı, yapay zekanın Pictionary ve Connect 4 gibi oyunları birbirine karşı oynadığı bir platform yarattı.

Yapay zekanın performansına ilişkin daha fazla akademik test yok gibi değil. Peki neden daha tuhaf olanlar havaya uçtu?

Yüksek Lisans Pictionary — **Resim Kredisi:**Paul Calcraft

Birincisi, endüstri standardı yapay zeka kriterlerinin çoğu, ortalama bir insana pek bir şey anlatmıyor. Şirketler sıklıkla yapay zekalarının Matematik Olimpiyatı sınavlarındaki soruları yanıtlama veya doktora düzeyindeki sorunlara makul çözümler bulma becerisinden bahsediyor. Ancak çoğu insan (sizinki de dahil) chatbotları aşağıdaki gibi şeyler için kullanıyor: e-postalara ve temel araştırmalara yanıt verme.

Kitle kaynaklı sektör önlemlerinin mutlaka daha iyi veya daha bilgilendirici olması gerekmez.

Örneğin, birçok yapay zeka meraklısının ve geliştiricinin takıntılı bir şekilde takip ettiği halka açık bir kıyaslama olan Chatbot Arena’yı ele alalım. Chatbot Arena, web üzerindeki herkesin yapay zekanın bir web uygulaması oluşturmak veya bir görüntü oluşturmak gibi belirli görevlerde ne kadar iyi performans gösterdiğini değerlendirmesine olanak tanır. Ancak değerlendiriciler temsili olma eğiliminde değiller (çoğu yapay zeka ve teknoloji sektörü çevrelerinden geliyor) ve oylarını kişisel, belirlenmesi zor tercihlere göre veriyorlar.

Chatbot Arena arayüzü.Resim Kredisi:LMSYS

Wharton’da yönetim profesörü Ethan Mollick yakın zamanda bir konuşmasında şunu belirtti: postalamak X’te, birçok yapay zeka endüstrisi kıyaslamasındaki bir başka sorun: bir sistemin performansını ortalama bir insanınkiyle karşılaştırmıyorlar.

Mollick, “Tıpta, hukukta, tavsiye kalitesinde vb. farklı kuruluşlardan 30 farklı kriterin bulunmaması gerçekten utanç verici, çünkü insanlar bu şeyler için sistemleri kullanıyor” diye yazdı.

Connect 4, Minecraft ve Will Smith’in spagetti yemesi gibi tuhaf yapay zeka testleri kesinlikle Olumsuz ampirik – hatta bunların hepsi genelleştirilebilir. Bir yapay zekanın Will Smith testini başarması onun örneğin iyi bir hamburger üreteceği anlamına gelmez.

McBench — Yazım hatasına dikkat edin; Claude 3.6 Sonnet diye bir model yok.Resim Kredisi:Adonis Singh

Yapay zeka kıyaslamaları hakkında konuştuğum bir uzman, yapay zeka topluluğunun, yapay zekanın dar alanlardaki yeteneği yerine aşağı yönlü etkilerine odaklanmasını önerdi. Bu mantıklı. Ancak tuhaf kriterlerin yakın zamanda ortadan kalkmayacağına dair bir his var içimde. Sadece eğlenceli değiller; yapay zekanın Minecraft kaleleri inşa etmesini izlemeyi kim sevmez ki? – ama anlaşılması kolaydır. Meslektaşım Max Zeff’in yakın zamanda yazdığı gibi, endüstri yapay zeka gibi karmaşık bir teknolojiyi sindirilebilir pazarlamaya dönüştürmekle boğuşmaya devam ediyor.

Aklımdaki tek soru şu: 2025’te hangi yeni kriterler viral olacak?

genel-24

Will Smith spagetti yiyor ve 2024’te yükselişe geçen diğer tuhaf yapay zeka testleri

Sanal Medya

Son Eklenenler

Activision’ın Yeni Call Of Duty Duyurusu Oyuncuları Şaşırtıyor

Apex Legends’ta Hilelere Karşı Sert Önlemler Alındı

Apex Legends’ta Dolandırıcılara Karşı 6,000 Donanım Yasağı Uygulandı

Çocuklar için bir kamu interneti inşa edelim

Çin, 2026’nın ilk yarısında çip ihracatını %96 artırdı

New York’ta İlk Eyalet Veri Merkezi Moratumu: Neden Bu Kadar Önemli?

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer