Epoch AI, Yapay Zeka Modellerinin Yeteneklerini Test Etmek İçin FrontierMath AI Benchmark’ı Başlattı

Son güncelleme: 12 Kasım 2024 17:06

Kaliforniya merkezli bir araştırma enstitüsü olan Epoch AI, geçen hafta yeni bir yapay zeka (AI) kıyaslaması başlattı. FrontierMath olarak adlandırılan yeni AI kıyaslaması, büyük dil modellerinin (LLM’ler) yeniden düzenleme ve matematiksel problem çözme yeteneklerini test ediyor. Yapay zeka firması, veri kirliliği ve yapay zeka modellerinin çok yüksek puanlar alması gibi faktörler nedeniyle mevcut matematik kıyaslamalarının pek kullanışlı olmadığını iddia ediyor. Epoch AI, önde gelen LLM’lerin bile yeni kıyaslamada yüzde ikiden daha az puan aldığını iddia ediyor.

Epoch AI FrontierMath Benchmark’ı Başlattı

bir postalamak AI firması, X’te (eski adıyla Twitter olarak biliniyordu) yüzlerce köken ve yayınlanmamış matematik problemi oluşturmak için 60’tan fazla matematikçiyle işbirliği yaptığını açıkladı. Epoch AI, bu soruların çözülmesinin matematikçilerin bile saatlerini alacağını iddia ediyor. Yeni kriterin geliştirilmesinin arkasındaki nedenin, AI modellerinin genellikle yüksek puan aldığı GSM8K ve MATH gibi mevcut kriterlerin sınırlamaları olduğu belirtildi.

Şirket, LLM’lerin elde ettiği yüksek puanların büyük ölçüde veri kirliliğinden kaynaklandığını iddia etti. Bu, soruların bir şekilde zaten yapay zeka modellerine beslendiği ve soruların kolayca çözülmesine olanak sağladığı anlamına geliyor.

FrontierMath, benzersiz ve hiçbir yerde yayınlanmamış yeni problemleri dahil ederek sorunu çözer ve veri kirliliğiyle ilişkili riskleri azaltır. Ayrıca kıyaslama, sayı teorisi, gerçek analiz ve cebirsel geometrideki hesaplama açısından yoğun problemlerin yanı sıra Zermelo-Fraenkel küme teorisi gibi konuları da içeren çok çeşitli soruları içerir. Yapay zeka firması, tüm soruların “tahmin kanıtı” olduğunu, yani güçlü bir mantık yürütmeden kazara çözülemeyeceklerini söylüyor.

Epoch AI, yapay zekanın yeteneğini ölçmek için, yapay zekanın birden fazla adımda akıl yürütmeyi sürdürmesi gereken yaratıcı problem çözme konusunda kıyaslamaların oluşturulması gerektiğini vurguladı. Özellikle sektör emektarlarının çoğu, mevcut kriterlerin bir yapay zeka modelinin ne kadar gelişmiş olduğunu doğru bir şekilde ölçmek için yeterli olmadığına inanıyor.

Yeni kıyaslamaya yanıt olarak postalamakŞirketin o1 modelinin arkasında yer alan OpenAI araştırmacısı Noam Brown, yeni kriteri memnuniyetle karşıladı ve şunları söyledi: “Öncü modeller için bu kadar düşük geçiş oranlarına sahip yeni bir değerlendirme görmeyi seviyorum.”

En son teknoloji haberleri ve incelemeleri için Gadgets 360’ı takip edin X, Facebook, WhatsApp, Konular Ve Google Haberler. Cihazlar ve teknolojiyle ilgili en son videolar için abone olun YouTube kanalı. En iyi etkileyiciler hakkında her şeyi bilmek istiyorsanız şirket içi bölümümüzü takip edin O Kim360 Açık instagram Ve YouTube.

Poco X7 Pro, Xiaomi’nin HyperOS 2’siyle Hindistan’da Gönderilen İlk Akıllı Telefon Olabilir

iQOO 13 Renk Seçenekleri 3 Aralık’ta Hindistan’da Lansman Öncesi Ortaya Çıktı

genel-8

ETİKETLENDİ:başlattı Benchmarkı Epoch epoch ai frontiermath kıyaslama testi büyük dil modellerini başlattı epoch ai Etmek FrontierMath için modellerinin test Yapay yapay zeka yapay zeka karşılaştırması Yeteneklerini Zeka

Bu Makaleyi Paylaş

Facebook Bağlantıyı Kopyala Yazdır

Önceki Makale Nvidia Uygulaması sürüm 1.0 dönüm noktasına ulaşıyor ve betadan çıkıyor — GeForce Experience yakında kullanımdan kaldırılabilir

Sonraki Makale LG Display’in gerilebilir ekranı artık daha da esnek

Epoch AI, Yapay Zeka Modellerinin Yeteneklerini Test Etmek İçin FrontierMath AI Benchmark’ı Başlattı

Epoch AI FrontierMath Benchmark’ı Başlattı

Sanal Medya

Son Eklenenler

AMD Ryzen 7700X3D, 16GB RAM ve Asus B850 Anakart Sadece $491

Warner Bros. Discovery Satışıyla İlgili Bilmeniz Gerekenler

TDC Dijital Varlık Vergisini Engellemek İçin Illinois’i Dava Etti

Etsy’nin Kriz Dönemi: Satıcılar Neden Kaçıyor?

Hasbro, Büyük Oyunlarla Yeni Stratejisini Belirliyor

Dimension Capital’ın 800 Milyon Dolarlık Üçüncü Fonu Bilim ve Teknolojiyi Buluşturuyor

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer