Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Yapay zeka modelleri ilkokul matematiğinde giderek daha iyi hale geliyor – ancak yeni bir çalışma bunların hile yapıyor olabileceğini öne sürüyor
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Yapay zeka modelleri ilkokul matematiğinde giderek daha iyi hale geliyor – ancak yeni bir çalışma bunların hile yapıyor olabileceğini öne sürüyor

Genel

Yapay zeka modelleri ilkokul matematiğinde giderek daha iyi hale geliyor – ancak yeni bir çalışma bunların hile yapıyor olabileceğini öne sürüyor

teknomers
Son güncelleme: 6 Mayıs 2024 09:35
teknomers
Paylaş
Paylaş

ChatGPT gibi sohbet robotlarına güç veren büyük dil modelleri (LLM’ler), matematiksel akıl yürütmeyi ölçen kıyaslama sorularını yanıtlamada daha iyi hale gelebilir. Ancak bu aslında kötü bir şey olabilir.

A ön baskı Scale AI’daki araştırmacılar tarafından Çarşamba günü yayınlanan araştırma makalesinde, LLM’lerin matematik kıyaslama testlerinde nasıl etkileyici sonuçlar elde ettiği, ancak veri seti kirliliğinin yüksek notları körüklediğine dair artan endişeler olduğu ayrıntılı olarak açıklandı.

Bu, kıyaslama sorularına benzeyen verilerin eğitim verilerine sızdığı zamandır. LLM daha sonra, çözmeye çalıştığı matematik problemini gerçekten anlamak yerine, bu standart testleri geçmeyi önceliklendirecek şekilde eğitim alabilir.

Bu, problemin nasıl çözüleceğini öğrenmek yerine, cevapları ezberleyerek bir matematik sınavına hazırlanmanıza benzer. Bu soruna aşırı uyum denir.

Ancak makalenin yazarları, sonuçlarının bu teoriyi desteklemediğini söylüyor ve bunun yapay zekanın muhakeme konusunda kötü olduğu anlamına gelmediğini, sadece kriterlerin önerdiği kadar iyi olmayabileceğini öne sürüyor.

Yeni bir matematik ölçütü geliştirmek

Veri kirliliği şu anda LLM değerlendirmeleri için büyük bir sorundur. Scale’de, fazla uyumu ölçmek için GSM8k için *sıfırdan* yeni bir test seti oluşturduk ve bazı modellerin (özellikle Mistral ve Phi) GSM8k’ye kıyasla bu yeni test setinde önemli ölçüde daha kötü performans gösterdiğine dair kanıtlar bulduk. pic.twitter.com/JgPQUaYsEc2 Mayıs 2024

Makalede yazarlar şunu yazdı: “Bir modelin gereğinden fazla uygun olması, onun muhakeme yeteneğinin zayıf olduğu anlamına gelmez, sadece kriterlerin gösterdiği kadar iyi olmadığı anlamına gelir.” modeller, eğitim setlerinde daha önce hiç karşılaşmadıkları problemleri hâlâ akıl yürütebiliyor ve çözebiliyor.

Bu değerlendirmeleri gerçekleştirmek için kendi matematik kıyaslama testini (GSM1k) geliştirdiler ve bunun yapay zekanın yalnızca cevabı değil, sorunu anlama yeteneğini de test ettiğini söylediler.

En büyük teknoloji haberlerinden, yaşam tarzı tüyolarından ve özenle seçilmiş analizlerimizden günlük dozlarla hayatınızı geliştirin. En yeni gadget’lardan ve en yeni fırsatlardan ilk siz haberdar olun.

Bir modelin gereğinden fazla uygun olması, onun muhakeme yeteneğinin zayıf olduğu anlamına gelmez; yalnızca, kıyaslamaların gösterdiği kadar iyi olmadığı anlamına gelir.

Çalışma yazarları

Sorular ilkokul matematik düzeyindedir ve tipik bir GSM1k sorusu şuna benzer: Jim aylık kazancının %15’ini market alışverişine harcamak istiyor. Ayda 2500 dolar kazanıyor. Geriye ne kadar para kalacak? Doğru cevap 2125 dolar.

Bu tür sorular zorluk açısından sektördeki altın standart testteki (GSM8k) sorulara çok benzese de, yüksek lisans öğrencilerinin daha önce görmedikleri matematik bulmacalarını çözüp çözemediklerini test edecek kadar farklıdırlar.

Scale AI’deki araştırma ekibi, yeni testlerini kullanarak, önde gelen açık ve kapalı kaynak LLM’leri değerlendirirken doğrulukta %13’e varan düşüşler bildirdi. Gemini, GPT ve Claude gibi sınırdaki diğer modeller minimum düzeyde aşırı uyum belirtileri gösterdi.

Sıradaki ne?

Akademik kriterler gücünü kaybediyor. İleriye dönük olarak, önemli olan 3 tür LLM değerlendirmesi vardır: 1. Özel olarak düzenlenen, ancak tanıtımını yapacak kendi LLM’si olmayan güvenilir bir 3. taraf tarafından yapılan, halka açık olarak rapor edilen puanlar. @scale_AI’nin en son GSM1k’si harika bir örnek.… pic.twitter.com/j6a1Mf5biN2 Mayıs 2024

Yazarlar, 2025 yılına kadar ilkokul matematiğinin artık yeni Yüksek Lisans’ları kıyaslamak için yeterince zor olmayacağını öngördüklerinden, bu ‘sorun’ zamanla kendi kendine çözülebilir. Yine de yüksek lisansta muhakemeyi geliştirmenin “mevcut araştırmaların en önemli yönlerinden biri olduğunu” söylüyorlar.

NVIDIA Kıdemli Araştırma Bilimcisi Jim Fan şunları söyledi: X Akademik kriterlerin gücünü kaybettiğini düşünüyoruz.

Gelecekte önemli olacak üç tür LLM değerlendirmesinin Scale AI gibi özel olarak düzenlenen testler, modelleri yan yana test edebileceğiniz Chatbot Arena gibi halka açık karşılaştırmalı kıyaslamalar ve her şirketin kendi için özel olarak seçilmiş kıyaslamalar olacağını söyledi. vakaları kullanın.

Tom’s Guide’dan daha fazlası





genel-26

Contents
  • Yeni bir matematik ölçütü geliştirmek
  • Sıradaki ne?
    • Tom’s Guide’dan daha fazlası
Anonymous, Gazprom şirketlerinden birinin hacklendiğini duyurdu ve 700 GB’den fazla veri sızdırdı
NASA, Orion uzay aracının yanmaz kalkanının başarısızlığının nedenlerini sürdürüyor
Samsung akıllı telefonların 10 modeli 7 yıl güncellenecek. Cihazlar listesi
GPT-4.5: Turing Testini Geçen Yapay Zeka ve Bilinç Tartışmaları
Battlefield’ın şimdiye kadarki en iyi kampanyaları EA tarafından listeden çıkarılıyor
ETİKETLENDİ:ancakBirbunlarınçalışmaDahaGeliyorgiderekHalehileİlkokuliyimatematiğindeModelleriOlabileceğiniÖnesürüyorYapayyapıyorYeniZeka
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale 6,4 litrelik Hemi V8’li en yeni Dodge Durango SRT’nin ABD’deki fiyatı 91.000 dolar
Sonraki Makale Uluslararası Af Örgütü Endonezya’yı Casus Yazılım Merkezi Olarak Gösteriyor

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Vampire Survivors Ekibi İçin En Uygun Anime Uyarlaması Bulundu
Oyun
Lucid Motors’ta Üst Düzey İsimler Değişiyor
Genel
Yeni Kahraman Cyberpunk Temalı Bir Şeytan Olacak
Oyun
Acil: Claude Fable 5 Sınırlı Süreyle Kullanıma Sunuldu!
Siber Güvenlik
2026 Yılında Geçerli Kriptopara Kurtarma Şirketi: Viste_ZEUS KRİPTO KURTARMA HİZMETLERİ
Yazılım
Justin Ernest’in geleneksel VC olmadan 500M$ yatırımı nasıl yaptı?
Yapay Zeka
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?