Amazon, AI modellerini test etmek için insan kıyaslama ekipleri sunacak

Amazon, kullanıcıların yapay zeka modellerini daha iyi değerlendirmesini ve daha fazla insanın sürece dahil olmasını teşvik etmesini istiyor.

AWS re: Invent konferansı sırasında AWS veritabanı, analitik ve makine öğreniminden sorumlu başkan yardımcısı Swami Sivasubramanian şunu duyurdu: Ana Kaya Üzerinde Model DeğerlendirmesiAmazon Bedrock deposunda bulunan modeller için artık önizlemede mevcut. Modelleri şeffaf bir şekilde test etmenin bir yolu olmadığında geliştiriciler, bir soru-cevap projesi için yeterince doğru olmayan veya kullanım durumları için çok büyük olanları kullanmaya başlayabilirler.

Sivasubramanian, “Model seçimi ve değerlendirmesi sadece başlangıçta yapılmaz, periyodik olarak tekrarlanan bir şeydir” dedi. “Döngüde bir insanın olmasının önemli olduğunu düşünüyoruz, bu nedenle insan değerlendirme iş akışlarını ve model performansı ölçümlerini kolayca yönetmenin bir yolunu sunuyoruz.”

Sivasubramanyan anlattı Sınır ayrı bir röportajda, bazı geliştiricilerin proje için daha büyük bir model kullanmaları gerekip gerekmediğini bilmediklerini çünkü daha güçlü bir modelin ihtiyaçlarını karşılayacağını varsaydıklarını söyledi. Daha sonra daha küçük bir tane üzerine inşa edebileceklerini anladılar.

Model Değerlendirmenin iki bileşeni vardır: otomatik değerlendirme ve insan değerlendirmesi. Otomatik versiyonda geliştiriciler Bedrock konsoluna gidip test edecekleri bir model seçebilirler. Daha sonra özetleme, metin sınıflandırma, soru-cevap ve metin oluşturma gibi görevler için modelin sağlamlık, doğruluk veya toksisite gibi ölçümlere ilişkin performansını değerlendirebilirler. Bedrock, Meta’nın Llama 2’si, Anthropic’in Claude 2’si ve Stability AI’nin Stable Diffusion’ı gibi popüler üçüncü taraf AI modellerini içerir.

AWS test veri kümeleri sağlarken müşteriler kendi verilerini kıyaslama platformuna getirebilir ve böylece modellerin nasıl davrandığı konusunda daha iyi bilgi sahibi olabilirler. Daha sonra sistem bir rapor oluşturur.

İnsanların dahil olması durumunda kullanıcılar, bir AWS insan değerlendirme ekibiyle veya kendi ekipleriyle çalışmayı seçebilir. Müşterilerin, kullanmak istedikleri görev türünü (örneğin özetleme veya metin oluşturma), değerlendirme ölçümlerini ve veri kümesini belirtmesi gerekir. AWS, değerlendirme ekibiyle çalışanlar için özelleştirilmiş fiyatlandırma ve zaman çizelgeleri sağlayacaktır.

AWS’nin üretken yapay zekadan sorumlu başkan yardımcısı Vasi Philomin şunları söyledi: Sınır Modellerin nasıl performans gösterdiğini daha iyi anlamanın gelişimi daha iyi yönlendirdiğini belirten bir röportajda. Bu aynı zamanda şirketlerin, modeli kullanmadan önce modellerin (daha düşük veya çok yüksek toksisite hassasiyetleri gibi) bazı sorumlu AI standartlarını karşılayıp karşılamadığını görmesine olanak tanır.

Philomin, “Modellerin müşterilerimiz için işe yaraması, hangi modelin kendilerine en uygun olduğunu bilmeleri önemlidir ve biz de onlara bunu daha iyi değerlendirebilmeleri için bir yol sağlıyoruz” dedi.

Sivasubramanian ayrıca, insanların yapay zeka modellerini değerlendirirken otomatik sistemin tespit edemediği empati veya samimiyet gibi diğer ölçümleri de tespit edebildiklerini söyledi.

Philomin, AWS’nin tüm müşterilerin modelleri karşılaştırmasını gerektirmeyeceğini, çünkü bazı geliştiricilerin Bedrock’taki bazı temel modellerle daha önce çalışmış olabileceğini veya modellerin onlar için neler yapabileceğine dair bir fikre sahip olabileceğini söyledi. Halen hangi modellerin kullanılacağını araştıran şirketler, kıyaslama sürecinden geçmenin faydasını görebilir.

AWS, kıyaslama hizmeti önizleme aşamasındayken yalnızca değerlendirme sırasında kullanılan model çıkarımı için ücret alacağını söyledi.

Yapay zeka modellerini kıyaslamak için belirli bir standart olmasa da bazı endüstrilerin genel olarak kabul ettiği belirli ölçümler vardır. Philomin, Bedrock’ta kıyaslama yapmanın amacının modelleri geniş bir şekilde değerlendirmek değil, şirketlere bir modelin projeleri üzerindeki etkisini ölçmenin bir yolunu sunmak olduğunu söyledi.

genel-2

Sanal Medya

Son Eklenenler

RTX 5060’lı OLED Oyun Laptopu: 1.099 $ – HP Omen Transcend

2026’nın En Kötü Siber Saldırıları ve Veri İhlalleri

OpenAI ve Anthropic’ten AI ile Biyolojik Silahlara Karşı Önlem Çağrısı

NZXT H6 Kasa ve Ultra RGB Fanlar: Sınırsız RGB Özelleştirme

GitLab, AI Yüklerine Hizmet Vermek İçin Personelinin %14’ünü Kesiyor

CoD Sezon 4 Güncellemesi: SG-12 Dengeleme ve Anti-Hile Yenilikleri

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer