Bir dizi veri etiketleme ve yapay zeka geliştirme hizmeti sunan kar amacı gütmeyen Yapay Zeka Güvenliği Merkezi (CAIS) ve Scale AI, bir rapor yayınladı. zorlu yeni kriter sınır yapay zeka sistemleri için.
İnsanlığın Son Sınavı olarak adlandırılan kıyaslama, matematik, beşeri bilimler ve doğa bilimleri gibi konulara değinen binlerce kitle kaynaklı soruyu içeriyor. Değerlendirmeyi zorlaştırmak için sorular, diyagramlar ve görselleri içeren formatlar da dahil olmak üzere birden fazla formattadır.
bir ön çalışmaHalka açık tek bir amiral gemisi yapay zeka sistemi, İnsanlığın Son Sınavında %10’dan daha iyi puan almayı başaramadı.
CAIS ve Scale AI, araştırmacıların “varyasyonları daha derinlemesine inceleyebilmesi” ve yeni AI modellerini değerlendirebilmesi için karşılaştırmayı araştırma topluluğuna açmayı planladıklarını söylüyor.

