Amazon, AI modellerini test etmek için insan kıyaslama ekipleri sunacak

Amazon, kullanıcıların yapay zeka modellerini daha iyi değerlendirmesini ve daha fazla insanın sürece dahil olmasını teşvik etmesini istiyor.

AWS re: Invent konferansı sırasında AWS veritabanı, analitik ve makine öğreniminden sorumlu başkan yardımcısı Swami Sivasubramanian şunu duyurdu: Ana Kaya Üzerinde Model DeğerlendirmesiAmazon Bedrock deposunda bulunan modeller için artık önizlemede mevcut. Modelleri şeffaf bir şekilde test etmenin bir yolu olmadığında geliştiriciler, bir soru-cevap projesi için yeterince doğru olmayan veya kullanım durumları için çok büyük olanları kullanmaya başlayabilirler.

Sivasubramanian, “Model seçimi ve değerlendirmesi sadece başlangıçta yapılmaz, periyodik olarak tekrarlanan bir şeydir” dedi. “Döngüde bir insanın olmasının önemli olduğunu düşünüyoruz, bu nedenle insan değerlendirme iş akışlarını ve model performansı ölçümlerini kolayca yönetmenin bir yolunu sunuyoruz.”

Sivasubramanyan anlattı Sınır ayrı bir röportajda, bazı geliştiricilerin proje için daha büyük bir model kullanmaları gerekip gerekmediğini bilmediklerini çünkü daha güçlü bir modelin ihtiyaçlarını karşılayacağını varsaydıklarını söyledi. Daha sonra daha küçük bir tane üzerine inşa edebileceklerini anladılar.

Model Değerlendirmenin iki bileşeni vardır: otomatik değerlendirme ve insan değerlendirmesi. Otomatik versiyonda geliştiriciler Bedrock konsoluna gidip test edecekleri bir model seçebilirler. Daha sonra özetleme, metin sınıflandırma, soru-cevap ve metin oluşturma gibi görevler için modelin sağlamlık, doğruluk veya toksisite gibi ölçümlere ilişkin performansını değerlendirebilirler. Bedrock, Meta’nın Llama 2’si, Anthropic’in Claude 2’si ve Stability AI’nin Stable Diffusion’ı gibi popüler üçüncü taraf AI modellerini içerir.

AWS test veri kümeleri sağlarken müşteriler kendi verilerini kıyaslama platformuna getirebilir ve böylece modellerin nasıl davrandığı konusunda daha iyi bilgi sahibi olabilirler. Daha sonra sistem bir rapor oluşturur.

İnsanların dahil olması durumunda kullanıcılar, bir AWS insan değerlendirme ekibiyle veya kendi ekipleriyle çalışmayı seçebilir. Müşterilerin, kullanmak istedikleri görev türünü (örneğin özetleme veya metin oluşturma), değerlendirme ölçümlerini ve veri kümesini belirtmesi gerekir. AWS, değerlendirme ekibiyle çalışanlar için özelleştirilmiş fiyatlandırma ve zaman çizelgeleri sağlayacaktır.

AWS’nin üretken yapay zekadan sorumlu başkan yardımcısı Vasi Philomin şunları söyledi: Sınır Modellerin nasıl performans gösterdiğini daha iyi anlamanın gelişimi daha iyi yönlendirdiğini belirten bir röportajda. Bu aynı zamanda şirketlerin, modeli kullanmadan önce modellerin (daha düşük veya çok yüksek toksisite hassasiyetleri gibi) bazı sorumlu AI standartlarını karşılayıp karşılamadığını görmesine olanak tanır.

Philomin, “Modellerin müşterilerimiz için işe yaraması, hangi modelin kendilerine en uygun olduğunu bilmeleri önemlidir ve biz de onlara bunu daha iyi değerlendirebilmeleri için bir yol sağlıyoruz” dedi.

Sivasubramanian ayrıca, insanların yapay zeka modellerini değerlendirirken otomatik sistemin tespit edemediği empati veya samimiyet gibi diğer ölçümleri de tespit edebildiklerini söyledi.

Philomin, AWS’nin tüm müşterilerin modelleri karşılaştırmasını gerektirmeyeceğini, çünkü bazı geliştiricilerin Bedrock’taki bazı temel modellerle daha önce çalışmış olabileceğini veya modellerin onlar için neler yapabileceğine dair bir fikre sahip olabileceğini söyledi. Halen hangi modellerin kullanılacağını araştıran şirketler, kıyaslama sürecinden geçmenin faydasını görebilir.

AWS, kıyaslama hizmeti önizleme aşamasındayken yalnızca değerlendirme sırasında kullanılan model çıkarımı için ücret alacağını söyledi.

Yapay zeka modellerini kıyaslamak için belirli bir standart olmasa da bazı endüstrilerin genel olarak kabul ettiği belirli ölçümler vardır. Philomin, Bedrock’ta kıyaslama yapmanın amacının modelleri geniş bir şekilde değerlendirmek değil, şirketlere bir modelin projeleri üzerindeki etkisini ölçmenin bir yolunu sunmak olduğunu söyledi.

genel-2

Byteknomers

By teknomers

Benzer İçerikler

Meletrix Boog75 İncelemesi: Oyuncudan çok meraklı

Bazı iPhone kullanıcıları, ses sorunları yaşamaları durumunda 349 dolara kadar talepte bulunabilir

Fall Guy ve Phantom Menace’in Sessiz Açılışları Yaz Sezonunu Başlıyor

Geliştirici, zorlu lansmanın ardından Orta Çağ RPG’si Bellwright’ın “daha fazla çalışmaya ihtiyacı olduğunu” söyledi

Doom bu JRPG’ye kusursuz bir şekilde entegre edildi ve harika

Gelecek vaat eden yeni zar tabanlı roguelike, genişletilmiş ücretsiz demoya kavuşuyor

Senpai, Temmuz’da Yayınlanacak Bir Otokonoko’dur

Huawei, ABD tarafından kara listeye alınmasına rağmen ülkedeki araştırmaları finanse ediyor

İçeriden biri Salı günkü 35 dakikalık etkinlikten sonra Apple’ın iPad serisinin nasıl görüneceğini söylüyor

Amazon’da 282 $ daha uygun fiyatlı Galaxy Tab S8+, daha ucuza yeni iş gücünüz olmayı bekliyor

Süper nadir OnePlus 10T anlaşması fiyatından 404 $ düştü

Yeni nesil geniş uzay gözlemevlerinin etkinleştirilmesi

NASA’nın Güneş Dinamikleri Gözlemevi Tarafından Yakalanan Yoğun Güneş Patlaması

Gökbilimciler açık küme NGC 346’daki genç yıldız nesnelerinin popülasyonunu inceliyor

Dünyanın En Hassas Uydu Navigasyon Sistemi Genişliyor

İlginizi Çekebilir

Dropbox İhlali Müşteri Kimlik Bilgilerini ve Kimlik Doğrulama Verilerini Açığa Çıkarıyor

Meletrix Boog75 İncelemesi: Oyuncudan çok meraklı

Dell XPS 14 yerine satın almanız gereken 5 dizüstü bilgisayar

Hyundai Tucson L 2024 Haziran’da çıkıyor: uzatılmış dingil mesafesi, dört tekerlekten çekiş ve hibrit güç aktarma organı