Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Çoğu yapay zeka testinin bize bu kadar az şey söylemesinin nedeni budur
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Çoğu yapay zeka testinin bize bu kadar az şey söylemesinin nedeni budur

Liste

Çoğu yapay zeka testinin bize bu kadar az şey söylemesinin nedeni budur

teknomers
Son güncelleme: 8 Mart 2024 01:10
teknomers
Paylaş
Paylaş


Salı günü, startup Anthropic, sınıfının en iyi performansını elde ettiğini iddia ettiği bir üretken yapay zeka modelleri ailesini yayınladı. Sadece birkaç gün sonra rakip Inflection AI, OpenAI’nin GPT-4’ü de dahil olmak üzere piyasadaki en yetenekli modellerden bazılarıyla kalite açısından eşleşmeye yaklaştığını iddia ettiği bir modeli açıkladı.

Anthropic ve Inflection, modellerinin rekabeti karşıladığını veya objektif bir ölçüye göre yendiğini iddia eden ilk yapay zeka firmaları kesinlikle değil. Google, piyasaya sürüldüğünde Gemini modelleri için de aynı şeyi savundu ve OpenAI, GPT-4 ve onun öncülleri GPT-3, GPT-2 ve GPT-1 için de aynı şeyi söyledi. Liste devam ediyor.

Peki hangi ölçümlerden bahsediyorlar? Bir satıcı, bir modelin en son teknolojiye sahip performansa veya kaliteye ulaştığını söylediğinde, bu tam olarak ne anlama geliyor? Belki daha da önemlisi: Teknik olarak başka bir modelden daha iyi “performans” sergileyen bir model gerçekten de daha iyi performans gösterecek mi? hissetmek somut bir şekilde iyileştirildi mi?

Bu son soruda pek olası değil.

Bunun nedeni, daha doğrusu sorun, yapay zeka şirketlerinin bir modelin güçlü ve zayıf yönlerini ölçmek için kullandığı kriterlerde yatıyor.

Günümüzde yapay zeka modelleri için en yaygın kullanılan kıyaslamalar (özellikle OpenAI’nin ChatGPT’si ve Anthropic’in Claude’u gibi chatbot destekli modeller) ortalama bir kişinin test edilen modellerle nasıl etkileşime girdiğini yakalama konusunda zayıf bir iş çıkarıyor. Örneğin, Anthropic’in son duyurusunda alıntı yaptığı bir kıyaslama olan GPQA (“Lisans Düzeyinde Google Kanıtı Soru ve Cevap Karşılaştırması”), yüzlerce doktora düzeyinde biyoloji, fizik ve kimya sorusu içeriyor – ancak çoğu kişi sohbet robotlarını aşağıdaki gibi görevler için kullanıyor: e-postalara yanıt vermek, kapak mektupları yazmak Ve onların duyguları hakkında konuşuyoruz.

Kâr amacı gütmeyen yapay zeka araştırma kuruluşu Allen Yapay Zeka Enstitüsü’nden bilim adamı Jesse Dodge, sektörün bir “değerlendirme krizine” ulaştığını söylüyor.

Dodge, TechCrunch’a bir röportajda şunları söyledi: “Kıyaslamalar genellikle statiktir ve dar bir şekilde, bir modelin tek bir alandaki gerçekçiliği veya matematiksel muhakeme çoktan seçmeli soruları çözme yeteneği gibi tek bir yeteneği değerlendirmeye odaklanır.” “Değerlendirme için kullanılan kriterlerin çoğu, yapay zeka sistemlerinin çoğunlukla yalnızca araştırma için kullanıldığı ve çok fazla gerçek kullanıcıya sahip olmadığı dönemden bu yana üç yıldan fazla bir geçmişe sahip. Ayrıca insanlar üretken yapay zekayı birçok şekilde kullanıyor; çok yaratıcılar.”

En çok kullanılan kıyaslamaların tamamen işe yaramaz olduğu söylenemez. Birisi şüphesiz ChatGPT doktora düzeyinde matematik soruları soruyor. Bununla birlikte, üretken yapay zeka modelleri giderek kitlesel pazar, “her şeyi yapan” sistemler olarak konumlandırıldıkça, eski ölçütler daha az uygulanabilir hale geliyor.

Cornell’de yapay zeka ve etik üzerine çalışan doktora sonrası araştırmacı David Widder, ilkokul düzeyindeki matematik problemlerini çözmekten bir cümlenin anakronizm içerip içermediğini belirlemeye kadar ortak değerlendirme testindeki becerilerin çoğunun kullanıcıların çoğunluğu için asla alakalı olmayacağını belirtiyor.

Widder, TechCrunch’a şunları söyledi: “Eski yapay zeka sistemleri genellikle belirli bir bağlamdaki belirli bir sorunu (örneğin tıbbi yapay zeka uzman sistemleri) çözmek için oluşturuldu ve bu belirli bağlamda iyi performansı neyin oluşturduğuna dair derinlemesine bağlamsal bir anlayışı daha mümkün hale getirdi.” “Sistemler giderek daha fazla ‘genel amaçlı’ olarak görüldükçe, bu daha az mümkün oluyor, bu nedenle modellerin farklı alanlardaki çeşitli kıyaslamalarda test edilmesine giderek daha fazla odaklanıldığını görüyoruz.”

Kullanım durumlarıyla ilgili yanlış uyum bir yana, bazı kriterlerin ölçmeyi iddia ettikleri şeyi doğru şekilde ölçüp ölçmediğine dair sorular var.

Bir analiz Modellerdeki sağduyulu muhakemeyi değerlendirmek için tasarlanmış bir test olan HellaSwag’ın testi, test sorularının üçte birinden fazlasının yazım hataları ve “anlamsız” yazı içerdiğini ortaya çıkardı. Başka yerde, Google, OpenAI ve Anthropic gibi satıcılar tarafından, modellerinin mantık problemleri üzerinden akıl yürütebildiğinin kanıtı olarak gösterilen bir kıyaslama olan MMLU (“Massive Multitask Language Understanding”in kısaltması), ezberleme yoluyla çözülebilecek sorular soruyor.

“[Benchmarks like MMLU are] Widder, iki anahtar kelimeyi ezberleme ve ilişkilendirme konusunda daha fazla bilgi sahibi olduğunu söyledi. “Bulabilirim [a relevant] Oldukça hızlı bir şekilde makale yazabilir ve soruyu yanıtlayabilirim, ancak bu, nedensel mekanizmayı anladığım veya öngörülemeyen bağlamlardaki yeni ve karmaşık sorunları gerçekten derinlemesine düşünmek ve çözmek için bu nedensel mekanizmayı anladığım anlamına gelmez. Bir model de bunu yapamaz.”

Yani kriterler bozuldu. Ama bunlar düzeltilebilir mi?

Dodge böyle düşünüyor; daha fazla insan katılımıyla.

“Burada ileriye doğru giden doğru yol, değerlendirme kriterlerinin insan değerlendirmesiyle birleşimidir” dedi ve “gerçek bir kullanıcı sorgusu ile bir modele yönlendirmek ve ardından yanıtın ne kadar iyi olduğunu derecelendirmesi için bir kişiyi işe almak” dedi.

Widder ise bugünkü kıyaslamaların (yazım hataları gibi daha belirgin hatalara yönelik düzeltmeler olsa bile) üretken yapay zeka modeli kullanıcılarının büyük çoğunluğu için bilgilendirici olacak noktaya kadar geliştirilebileceği konusunda daha az iyimser. Bunun yerine, model testlerinin bu modellerin alt yöndeki etkilerine ve etkilerin, iyi ya da kötü, etkilenenler için arzu edilir olarak algılanıp algılanmadığına odaklanması gerektiğini düşünüyor.

“Yapay zeka modellerinin hangi spesifik bağlamsal hedefler için kullanılmasını istediğimizi sorardım ve bu tür bağlamlarda başarılı olup olmadıklarını veya başarılı olup olmadıklarını değerlendirirdim” dedi. “Ve umarım bu süreç, bu tür bağlamlarda yapay zekayı kullanıp kullanmamamız gerektiğini değerlendirmeyi de içerir.”



genel-24

Herkese açık YouTube videoları, içerik oluşturucular devre dışı bırakmadıkça artık YouTube Shorts’a ‘remikslenmeye’ uygundur
Garmin Edge Keşfet 2: E-bisiklet destekli yeni bisiklet bilgisayarı
Kaliforniya, risk sermayesi şirketlerine yatırım çeşitliliği bilgilerini yayınlama zorunluluğu getiren yasayı kabul etti
NASA, Hindistan’ın başarılı Chandrayaan-3 misyonunun tarifini istediğinde
Neil Gaiman, Good Omens 3. Sezonun Hikayesini Soranlar İçin Kesin Mesaj Yazdı
ETİKETLENDİ:AraştırmabizebudurÇoğugen aikadarkriterlerNedeniŞeySöylemesinintestininüretken yapay zekaYapayyapay zekaZeka
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale iPhone’unuz AB’den bir aylığına ayrılırsa Apple üçüncü taraf uygulama mağazası güncellemelerini kesecek
Sonraki Makale Üç motor, “3 saniyeden daha kısa sürede” 97 km/s hıza ulaşma, bagajda açılabilir camlar ve sadece 45 bin dolarlık fiyat. 2026 Rivian R2 Tanıtıldı – Kompakt Elektrikli SUV

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Meta Kendi Yapay Zeka Tabanlı Tıklama Tuzağı Haber Akışını Yaratıyor
Liste
Final Fantasy 7 Minigame Yenilikleriyle Seçim Heyecanı Sunuyor
Oyun
1972’de 8 inçlik, 80KB’lik disklerin patenti alındı
Donanım
GOG Nazi Sembolleriyle İlgili E-Posta Göndermek Üzere Özür Diledi
Liste
En İyi 3 Güvenilir Chime Hesap Sağlayıcısı
Yazılım
2TB PCIe 4.0 SSD, 750W PSU ve 240mm AIO ile 300$’a PC Yükseltin
Donanım
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?