Salı günü, startup Anthropic, sınıfının en iyi performansını elde ettiğini iddia ettiği bir üretken yapay zeka modelleri ailesini yayınladı. Sadece birkaç gün sonra rakip Inflection AI, OpenAI’nin GPT-4’ü de dahil olmak üzere piyasadaki en yetenekli modellerden bazılarıyla kalite açısından eşleşmeye yaklaştığını iddia ettiği bir modeli açıkladı.

Anthropic ve Inflection, modellerinin rekabeti karşıladığını veya objektif bir ölçüye göre yendiğini iddia eden ilk yapay zeka firmaları kesinlikle değil. Google, piyasaya sürüldüğünde Gemini modelleri için de aynı şeyi savundu ve OpenAI, GPT-4 ve onun öncülleri GPT-3, GPT-2 ve GPT-1 için de aynı şeyi söyledi. Liste devam ediyor.

Peki hangi ölçümlerden bahsediyorlar? Bir satıcı, bir modelin en son teknolojiye sahip performansa veya kaliteye ulaştığını söylediğinde, bu tam olarak ne anlama geliyor? Belki daha da önemlisi: Teknik olarak başka bir modelden daha iyi “performans” sergileyen bir model gerçekten de daha iyi performans gösterecek mi? hissetmek somut bir şekilde iyileştirildi mi?

Bu son soruda pek olası değil.

Bunun nedeni, daha doğrusu sorun, yapay zeka şirketlerinin bir modelin güçlü ve zayıf yönlerini ölçmek için kullandığı kriterlerde yatıyor.

Günümüzde yapay zeka modelleri için en yaygın kullanılan kıyaslamalar (özellikle OpenAI’nin ChatGPT’si ve Anthropic’in Claude’u gibi chatbot destekli modeller) ortalama bir kişinin test edilen modellerle nasıl etkileşime girdiğini yakalama konusunda zayıf bir iş çıkarıyor. Örneğin, Anthropic’in son duyurusunda alıntı yaptığı bir kıyaslama olan GPQA (“Lisans Düzeyinde Google Kanıtı Soru ve Cevap Karşılaştırması”), yüzlerce doktora düzeyinde biyoloji, fizik ve kimya sorusu içeriyor – ancak çoğu kişi sohbet robotlarını aşağıdaki gibi görevler için kullanıyor: e-postalara yanıt vermek, kapak mektupları yazmak Ve onların duyguları hakkında konuşuyoruz.

Kâr amacı gütmeyen yapay zeka araştırma kuruluşu Allen Yapay Zeka Enstitüsü’nden bilim adamı Jesse Dodge, sektörün bir “değerlendirme krizine” ulaştığını söylüyor.

Dodge, TechCrunch’a bir röportajda şunları söyledi: “Kıyaslamalar genellikle statiktir ve dar bir şekilde, bir modelin tek bir alandaki gerçekçiliği veya matematiksel muhakeme çoktan seçmeli soruları çözme yeteneği gibi tek bir yeteneği değerlendirmeye odaklanır.” “Değerlendirme için kullanılan kriterlerin çoğu, yapay zeka sistemlerinin çoğunlukla yalnızca araştırma için kullanıldığı ve çok fazla gerçek kullanıcıya sahip olmadığı dönemden bu yana üç yıldan fazla bir geçmişe sahip. Ayrıca insanlar üretken yapay zekayı birçok şekilde kullanıyor; çok yaratıcılar.”

En çok kullanılan kıyaslamaların tamamen işe yaramaz olduğu söylenemez. Birisi şüphesiz ChatGPT doktora düzeyinde matematik soruları soruyor. Bununla birlikte, üretken yapay zeka modelleri giderek kitlesel pazar, “her şeyi yapan” sistemler olarak konumlandırıldıkça, eski ölçütler daha az uygulanabilir hale geliyor.

Cornell’de yapay zeka ve etik üzerine çalışan doktora sonrası araştırmacı David Widder, ilkokul düzeyindeki matematik problemlerini çözmekten bir cümlenin anakronizm içerip içermediğini belirlemeye kadar ortak değerlendirme testindeki becerilerin çoğunun kullanıcıların çoğunluğu için asla alakalı olmayacağını belirtiyor.

Widder, TechCrunch’a şunları söyledi: “Eski yapay zeka sistemleri genellikle belirli bir bağlamdaki belirli bir sorunu (örneğin tıbbi yapay zeka uzman sistemleri) çözmek için oluşturuldu ve bu belirli bağlamda iyi performansı neyin oluşturduğuna dair derinlemesine bağlamsal bir anlayışı daha mümkün hale getirdi.” “Sistemler giderek daha fazla ‘genel amaçlı’ olarak görüldükçe, bu daha az mümkün oluyor, bu nedenle modellerin farklı alanlardaki çeşitli kıyaslamalarda test edilmesine giderek daha fazla odaklanıldığını görüyoruz.”

Kullanım durumlarıyla ilgili yanlış uyum bir yana, bazı kriterlerin ölçmeyi iddia ettikleri şeyi doğru şekilde ölçüp ölçmediğine dair sorular var.

Bir analiz Modellerdeki sağduyulu muhakemeyi değerlendirmek için tasarlanmış bir test olan HellaSwag’ın testi, test sorularının üçte birinden fazlasının yazım hataları ve “anlamsız” yazı içerdiğini ortaya çıkardı. Başka yerde, Google, OpenAI ve Anthropic gibi satıcılar tarafından, modellerinin mantık problemleri üzerinden akıl yürütebildiğinin kanıtı olarak gösterilen bir kıyaslama olan MMLU (“Massive Multitask Language Understanding”in kısaltması), ezberleme yoluyla çözülebilecek sorular soruyor.

“[Benchmarks like MMLU are] Widder, iki anahtar kelimeyi ezberleme ve ilişkilendirme konusunda daha fazla bilgi sahibi olduğunu söyledi. “Bulabilirim [a relevant] Oldukça hızlı bir şekilde makale yazabilir ve soruyu yanıtlayabilirim, ancak bu, nedensel mekanizmayı anladığım veya öngörülemeyen bağlamlardaki yeni ve karmaşık sorunları gerçekten derinlemesine düşünmek ve çözmek için bu nedensel mekanizmayı anladığım anlamına gelmez. Bir model de bunu yapamaz.”

Yani kriterler bozuldu. Ama bunlar düzeltilebilir mi?

Dodge böyle düşünüyor; daha fazla insan katılımıyla.

“Burada ileriye doğru giden doğru yol, değerlendirme kriterlerinin insan değerlendirmesiyle birleşimidir” dedi ve “gerçek bir kullanıcı sorgusu ile bir modele yönlendirmek ve ardından yanıtın ne kadar iyi olduğunu derecelendirmesi için bir kişiyi işe almak” dedi.

Widder ise bugünkü kıyaslamaların (yazım hataları gibi daha belirgin hatalara yönelik düzeltmeler olsa bile) üretken yapay zeka modeli kullanıcılarının büyük çoğunluğu için bilgilendirici olacak noktaya kadar geliştirilebileceği konusunda daha az iyimser. Bunun yerine, model testlerinin bu modellerin alt yöndeki etkilerine ve etkilerin, iyi ya da kötü, etkilenenler için arzu edilir olarak algılanıp algılanmadığına odaklanması gerektiğini düşünüyor.

“Yapay zeka modellerinin hangi spesifik bağlamsal hedefler için kullanılmasını istediğimizi sorardım ve bu tür bağlamlarda başarılı olup olmadıklarını veya başarılı olup olmadıklarını değerlendirirdim” dedi. “Ve umarım bu süreç, bu tür bağlamlarda yapay zekayı kullanıp kullanmamamız gerektiğini değerlendirmeyi de içerir.”



genel-24