Antropic, en yeni AI modelini karşılaştırmak için Pokémon’u kullandı. Evet, gerçekten.
Bir blogda postalamak Pazartesi günü yayınlanan Antropic, en son model Claude 3.7 sonnet’i Game Boy Classic Pokémon Red’de test ettiğini söyledi. Şirket, modeli temel bellek, ekran piksel girişi ve düğmelere basmak ve ekranda gezinmek için çağrılarla donatarak Pokémon’u sürekli olarak oynamasına izin vererek donattı.
Claude 3.7 sonnet’in benzersiz bir özelliği, “genişletilmiş düşünce” e girme yeteneğidir. Openai’nin O3-Mini ve Deepseek’in R1’i gibi, Claude 3.7 sonnet de daha fazla bilgi işlem uygulayarak ve daha fazla zaman alarak zorlu sorunlarla “akıl yürütebilir”.
Görünüşe göre Pokémon Red’de kullanışlı geldi.
Claude’un önceki bir versiyonuyla karşılaştırıldığında, hikayenin başladığı Palet kasabasında evi terk edemeyen Claude 3.0 sonnet, Claude 3.7 sonnet üç Pokémon spor salonu lideriyle başarılı bir şekilde savaştı ve rozetlerini kazandı.

Şimdi, Claude 3.7 sonnet’in bu kilometre taşlarına ulaşması için ne kadar bilgi işlem gerektiği ve her birinin ne kadar sürdüğü açık değil. Antropic sadece modelin son spor salonu lideri Suret’e ulaşmak için 35.000 eylem gerçekleştirdiğini söyledi.
Bazı girişimci geliştiricilerin öğrenmesi kesinlikle çok uzun sürmeyecek.
Pokémon Red, her şeyden çok bir oyuncak karşılaştırmasıdır. Ancak orada ki Uzun bir tarih AI kıyaslama amaçları için kullanılan oyunların. Yalnızca son birkaç ay içinde, bazı yeni uygulama ve platformlar, test modellerinin oyun oynama yeteneklerini başlıklar üzerindeki oyun oynama yeteneklerini belirledi. Sokak avcı uçağı Pictionary’ye.

