Gayri resmi, garip AI kıyaslama listesi büyümeye devam ediyor.
Son birkaç gün içinde, X’teki AI topluluğundaki bazıları haline gelmek takıntılı Farklı AI modellerinin, özellikle sözde akıl yürütme modellerinin nasıl işlendiğine dair bir test ile şöyle yazın: “Bir şekil içinde zıplayan bir sarı top için bir python betiği yazın. Şekli yavaş döndürün ve topun şekil içinde kaldığından emin olun. ”
Bazı modeller bu “dönen şekildeki top” ölçütünde diğerlerinden daha iyi yönetir. Binaen X’teki bir kullanıcı için Çin AI Lab Deepseek’in serbestçe kullanılabilir R1, Openai’nin Chatgpt Pro planının bir parçası olarak ayda 200 dolara mal olan Openai’nin O1 Pro modu ile zemini süpürdü.
👀 Deepseek R1 (sağ) Ezilmiş O1-Pro (sol) 👀
Sorun: “Bir kare içinde sıçrayan sarı bir top için bir python betiği yazın, çarpışma algılamasını düzgün bir şekilde kullandığınızdan emin olun. Kareyi yavaşça döndürün. Python’da uygulayın. Topun karenin içinde kaldığından emin olun ” pic.twitter.com/3sad9efpez
– Ivan Fioravanti ᯅ (@ivanfioravanti) 22 Ocak 2025
Başına başka bir x posteriAntropic’in Claude 3.5 sonnet ve Google’ın Gemini 1.5 Pro modelleri fiziği yanlış değerlendirdi ve topun şekilden kaçmasına neden oldu. Diğer kullanıcılar Google’ın Gemini 2.0 Flash Düşünme Deneysel ve hatta Openai’nin eski GPT-4O’su, değerlendirmeyi tek seferlik olarak kabul ettiğini bildirdi.
Fizik Simülasyon Görevinde 9 AI modelini test etti: Üçgenin dönmesi + zıplayan top. Sonuçlar:
🥇 Deepseek-R1
🥈 Sonar büyük
🥉 GPT-4OEn kötüsü? Openai O1: görevi tamamen yanlış anladı 😂
Aşağıdaki video ↓ ilk satır = muhakeme modelleri, REST = temel modeller. pic.twitter.com/eoyrhvnazr
– Aadhithya D (@aadhithya_d2003) 22 Ocak 2025
Ancak, bir AI’nın dönen, top içeren bir şekle kodlayabileceğini veya kodlayamayacağını kanıtlıyor?
Bir zıplayan topu simüle etmek klasik programlama meydan okumak. Doğru simülasyonlar, iki nesnenin (örneğin bir top ve bir şeklin tarafı) çarpıştığını tanımlamaya çalışan çarpışma algılama algoritmalarını içerir. Kötü yazılmış algoritmalar simülasyonun performansını etkileyebilir veya bariz fizik hatalarına yol açabilir.
X kullanıcısı N8 ProgramlarıAI Startup Nous Research’te ikamet eden bir araştırmacı, onu dönen bir heptagonda sıfırdan bir zıplayan topu programlamanın yaklaşık iki saat sürdüğünü söylüyor. N8 Programları, “Birden çok koordinat sistemini, her sistemde çarpışmaların nasıl yapıldığını ve kodu en başından sağlam olacak” diye açıkladı. postalamak.
Ancak topları zıplayan ve dönen şekiller programlama becerilerinin makul bir testi olsa da, çok ampirik bir AI ölçütü değildir. İstemdeki küçük farklılıklar bile farklı sonuçlar verebilir. Bu yüzden X raporundaki bazı kullanıcıların daha fazla şansı var O1diğerleri R1’in Kısa düşüyor.
Bir şey varsa, bu gibi viral testler, AI modelleri için yararlı ölçüm sistemleri oluşturma sorununa işaret eder. Çoğu insanla alakalı olmayan ezoterik ölçütlerin dışında bir modeli diğerinden neyin farklılaştırdığını söylemek zordur.
Arc-AGI ölçütü ve insanlığın son sınavı gibi daha iyi testler yapmak için birçok çaba sarf edilmektedir. Bu ücretin nasıl olduğunu göreceğiz – ve bu arada dönen şekillerde sıçrayan topların giflerini izliyoruz.

