Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Yapay zeka modelleri ilkokul matematiğinde giderek daha iyi hale geliyor – ancak yeni bir çalışma bunların hile yapıyor olabileceğini öne sürüyor
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Yapay zeka modelleri ilkokul matematiğinde giderek daha iyi hale geliyor – ancak yeni bir çalışma bunların hile yapıyor olabileceğini öne sürüyor

Genel

Yapay zeka modelleri ilkokul matematiğinde giderek daha iyi hale geliyor – ancak yeni bir çalışma bunların hile yapıyor olabileceğini öne sürüyor

teknomers
Son güncelleme: 6 Mayıs 2024 09:35
teknomers
Paylaş
Paylaş

ChatGPT gibi sohbet robotlarına güç veren büyük dil modelleri (LLM’ler), matematiksel akıl yürütmeyi ölçen kıyaslama sorularını yanıtlamada daha iyi hale gelebilir. Ancak bu aslında kötü bir şey olabilir.

A ön baskı Scale AI’daki araştırmacılar tarafından Çarşamba günü yayınlanan araştırma makalesinde, LLM’lerin matematik kıyaslama testlerinde nasıl etkileyici sonuçlar elde ettiği, ancak veri seti kirliliğinin yüksek notları körüklediğine dair artan endişeler olduğu ayrıntılı olarak açıklandı.

Bu, kıyaslama sorularına benzeyen verilerin eğitim verilerine sızdığı zamandır. LLM daha sonra, çözmeye çalıştığı matematik problemini gerçekten anlamak yerine, bu standart testleri geçmeyi önceliklendirecek şekilde eğitim alabilir.

Bu, problemin nasıl çözüleceğini öğrenmek yerine, cevapları ezberleyerek bir matematik sınavına hazırlanmanıza benzer. Bu soruna aşırı uyum denir.

Ancak makalenin yazarları, sonuçlarının bu teoriyi desteklemediğini söylüyor ve bunun yapay zekanın muhakeme konusunda kötü olduğu anlamına gelmediğini, sadece kriterlerin önerdiği kadar iyi olmayabileceğini öne sürüyor.

Yeni bir matematik ölçütü geliştirmek

Veri kirliliği şu anda LLM değerlendirmeleri için büyük bir sorundur. Scale’de, fazla uyumu ölçmek için GSM8k için *sıfırdan* yeni bir test seti oluşturduk ve bazı modellerin (özellikle Mistral ve Phi) GSM8k’ye kıyasla bu yeni test setinde önemli ölçüde daha kötü performans gösterdiğine dair kanıtlar bulduk. pic.twitter.com/JgPQUaYsEc2 Mayıs 2024

Makalede yazarlar şunu yazdı: “Bir modelin gereğinden fazla uygun olması, onun muhakeme yeteneğinin zayıf olduğu anlamına gelmez, sadece kriterlerin gösterdiği kadar iyi olmadığı anlamına gelir.” modeller, eğitim setlerinde daha önce hiç karşılaşmadıkları problemleri hâlâ akıl yürütebiliyor ve çözebiliyor.

Bu değerlendirmeleri gerçekleştirmek için kendi matematik kıyaslama testini (GSM1k) geliştirdiler ve bunun yapay zekanın yalnızca cevabı değil, sorunu anlama yeteneğini de test ettiğini söylediler.

En büyük teknoloji haberlerinden, yaşam tarzı tüyolarından ve özenle seçilmiş analizlerimizden günlük dozlarla hayatınızı geliştirin. En yeni gadget’lardan ve en yeni fırsatlardan ilk siz haberdar olun.

Bir modelin gereğinden fazla uygun olması, onun muhakeme yeteneğinin zayıf olduğu anlamına gelmez; yalnızca, kıyaslamaların gösterdiği kadar iyi olmadığı anlamına gelir.

Çalışma yazarları

Sorular ilkokul matematik düzeyindedir ve tipik bir GSM1k sorusu şuna benzer: Jim aylık kazancının %15’ini market alışverişine harcamak istiyor. Ayda 2500 dolar kazanıyor. Geriye ne kadar para kalacak? Doğru cevap 2125 dolar.

Bu tür sorular zorluk açısından sektördeki altın standart testteki (GSM8k) sorulara çok benzese de, yüksek lisans öğrencilerinin daha önce görmedikleri matematik bulmacalarını çözüp çözemediklerini test edecek kadar farklıdırlar.

Scale AI’deki araştırma ekibi, yeni testlerini kullanarak, önde gelen açık ve kapalı kaynak LLM’leri değerlendirirken doğrulukta %13’e varan düşüşler bildirdi. Gemini, GPT ve Claude gibi sınırdaki diğer modeller minimum düzeyde aşırı uyum belirtileri gösterdi.

Sıradaki ne?

Akademik kriterler gücünü kaybediyor. İleriye dönük olarak, önemli olan 3 tür LLM değerlendirmesi vardır: 1. Özel olarak düzenlenen, ancak tanıtımını yapacak kendi LLM’si olmayan güvenilir bir 3. taraf tarafından yapılan, halka açık olarak rapor edilen puanlar. @scale_AI’nin en son GSM1k’si harika bir örnek.… pic.twitter.com/j6a1Mf5biN2 Mayıs 2024

Yazarlar, 2025 yılına kadar ilkokul matematiğinin artık yeni Yüksek Lisans’ları kıyaslamak için yeterince zor olmayacağını öngördüklerinden, bu ‘sorun’ zamanla kendi kendine çözülebilir. Yine de yüksek lisansta muhakemeyi geliştirmenin “mevcut araştırmaların en önemli yönlerinden biri olduğunu” söylüyorlar.

NVIDIA Kıdemli Araştırma Bilimcisi Jim Fan şunları söyledi: X Akademik kriterlerin gücünü kaybettiğini düşünüyoruz.

Gelecekte önemli olacak üç tür LLM değerlendirmesinin Scale AI gibi özel olarak düzenlenen testler, modelleri yan yana test edebileceğiniz Chatbot Arena gibi halka açık karşılaştırmalı kıyaslamalar ve her şirketin kendi için özel olarak seçilmiş kıyaslamalar olacağını söyledi. vakaları kullanın.

Tom’s Guide’dan daha fazlası





genel-26

Contents
  • Yeni bir matematik ölçütü geliştirmek
  • Sıradaki ne?
    • Tom’s Guide’dan daha fazlası
Anonos, Veriye Dayalı Kuruluşlara %100 Doğruluk ve Fayda ile Veri Gizliliği Teknolojisi Sunmak için 50 Milyon Dolarlık IP Destekli Finansman Sağlıyor
Oura Ring 3 nihayet daha ucuz hale geliyor
Doki Doki Edebiyat Kulübü Plus’ta Monika İçin Mükemmel Bir Şiir Nasıl Yazılır?
Hampshire merkezli girişim QiO, yeşil yapay zeka için 8,3 milyon sterlin artırdı
Apple Vision Pro Uygulama Geliştirme İlerlemesi Son Derece Zayıf; Yeni Anket, Geliştiricilerin Yalnızca Yüzde 3’ünün Bunun İçin Tamamen Yeni Bir Program Hazırladığını Ortaya Çıkardı
ETİKETLENDİ:ancakBirbunlarınçalışmaDahaGeliyorgiderekHalehileİlkokuliyimatematiğindeModelleriOlabileceğiniÖnesürüyorYapayyapıyorYeniZeka
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale 6,4 litrelik Hemi V8’li en yeni Dodge Durango SRT’nin ABD’deki fiyatı 91.000 dolar
Sonraki Makale Uluslararası Af Örgütü Endonezya’yı Casus Yazılım Merkezi Olarak Gösteriyor

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

BYD Avrupa’da Binlerce 5 Dakikalık Elektrikli Araç Şarj İstasyonu Kuracak
Liste
Kritik Uyarı: Bazı Windows PC’ler Son Güncellemeleri Yüklemiyor!
Siber Güvenlik
Gigabyte RTX 5070 Ti Aorus Prime 5 Oyun PC’sinde 500$ indirim!
Donanım
Steam dolandırıcılıklarına son veriyor: Hediye kartları tehlikede
Oyun
Acil: Otomatik Penetrasyon Testinizde Kaçırılan Kritik Açıklar
Siber Güvenlik
WhatsApp Rekabetçi AI Asistanlarını Ücretsiz Barındıracak
Liste
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?