AWS, Bedrock LLM hizmetine hızlı yönlendirme ve önbelleğe alma özelliği getiriyor

İşletmeler, sınırlı prototiplerde üretken yapay zekayı denemekten bunları üretime geçirmeye geçtikçe, fiyat konusunda giderek daha bilinçli hale geliyorlar. Sonuçta büyük dil modellerini kullanmak ucuz değil. Maliyeti azaltmanın bir yolu eski bir kavrama geri dönmektir: önbelleğe alma. Bir diğeri ise daha basit sorguları daha küçük, daha uygun maliyetli modellere yönlendirmektir. AWS bugün Las Vegas’taki re:invent konferansında Bedrock LLM barındırma hizmeti için bu özelliklerin her ikisini de duyurdu.

Öncelikle önbellekleme hizmetinden bahsedelim. “Diyelim ki bir belge var ve birden fazla kişi aynı belge üzerinde sorular soruyor. Bedrock’un ürün müdürü Atul Deo bana “Her seferinde ödeme yapıyorsunuz” dedi. “Ve bu bağlam pencereleri giderek daha da uzuyor. Örneğin Nova ile 300 bine sahip olacağız [tokens of] bağlam ve 2 milyon [tokens of] bağlam. Gelecek yıl bu rakamın çok daha yüksek seviyelere çıkabileceğini düşünüyorum.”

Önbelleğe alma, temel olarak modelin tekrarlayan işler yapması ve aynı (veya büyük ölçüde benzer) sorguları tekrar tekrar işlemesi için ödeme yapmanıza gerek kalmamasını sağlar. AWS’ye göre bu, maliyeti %90’a kadar azaltabilir ancak bunun ek bir yan ürünü de modelden yanıt alma gecikmesinin önemli ölçüde daha düşük olmasıdır (AWS, %85’e kadar olduğunu söylüyor). Bedrock’taki bazı üretken yapay zeka uygulamaları için hızlı önbelleğe almayı test eden Adobe, yanıt süresinde %72’lik bir azalma gördü.

Diğer önemli yeni özellik ise Bedrock için akıllı yönlendirmedir. Bu sayede Bedrock, işletmelerin performans ve maliyet arasında doğru dengeyi kurmasına yardımcı olmak için istemleri aynı model ailesindeki farklı modellere otomatik olarak yönlendirebilir. Sistem, her modelin belirli bir sorgu için nasıl performans göstereceğini (küçük bir dil modeli kullanarak) otomatik olarak tahmin eder ve ardından isteği buna göre yönlendirir.

“Bazen sorgum çok basit olabiliyor. Bu sorguyu gerçekten son derece pahalı ve yavaş olan en yetenekli modele göndermem gerekiyor mu? Muhtemelen hayır. Yani temel olarak ‘Hey, çalışma zamanında, gelen istemi temel alarak doğru sorguyu doğru modele gönder’ fikrini yaratmak istiyorsunuz” diye açıkladı Deo.

LLM yönlendirme elbette yeni bir kavram değil. gibi girişimler Marslı ve bir dizi açık kaynak projesi de bu sorunun üstesinden geliyor, ancak AWS muhtemelen teklifini farklı kılan şeyin, yönlendiricinin çok fazla insan girişi olmadan sorguları akıllıca yönlendirebilmesi olduğunu iddia edecektir. Ancak sorguları yalnızca aynı model ailesindeki modellere yönlendirebilmesi nedeniyle de sınırlıdır. Ancak Deo bana uzun vadede ekibin bu sistemi genişletmeyi ve kullanıcılara daha fazla kişiselleştirilebilirlik sağlamayı planladığını söyledi.

Son olarak AWS, Bedrock için yeni bir pazar yeri de başlatıyor. Deo’ya göre buradaki fikir, Amazon’un daha büyük model sağlayıcıların çoğuyla ortaklık yapmasına rağmen, artık yalnızca birkaç özel kullanıcıya sahip olabilecek yüzlerce özel modelin var olmasıdır. Bu müşteriler şirketten bunları desteklemesini istediğinden, AWS bu modeller için bir pazar başlatıyor; buradaki tek büyük fark, kullanıcıların altyapılarının kapasitesini kendilerinin tedarik etmesi ve yönetmesi gerektiğidir; Bedrock bunu genellikle otomatik olarak yönetir. AWS, bu yeni ortaya çıkan ve özel modellerden toplamda yaklaşık 100 adet sunacak ve daha fazlası da gelecek.

genel-24

Byteknomers

By teknomers

Benzer İçerikler

OpenAI mürekkepleri Anduril’in anti-drone teknolojisini geliştirmek için anlaştı

Olağanüstü yeni Siber Pazartesi fırsatı, Lenovo Tab M11’i her zamankinden daha ucuz hale getiriyor

OpenAI, savunma teknolojisi şirketi Anduril ile ortaklık kuruyor

Fortnite, Kuralları İhlal Edenler İçin Ölümcül Sonuçları Olan “Dans Yasaktır” İşaretini Ekliyor

Ark Survival Ascished Güncellemesi 1.056.017 Çeşitli Teknik Düzeltmeler Getiriyor

Xbox 2024 Yılı İncelemesi Şimdi Yayında

NYT Connections bugün – 5 Aralık Perşembe için ipuçları ve cevaplar (oyun #543)

Telekom için en son teknolojiyi kullanan AT&T, çoğu kullanıcı için sabit hat desteğini durduracak

Samsung, Apple’ın katlanabilir telefonuna geri dönmek için daha ucuz Z Flip ve üçe katlanabilen bir telefon çıkarabilir

%44 indirimle 512 GB Motorola Edge+ (2023) uygun fiyatlı bir güç merkezi haline geliyor

Moto G Stylus 5G (2023), Amazon’da tüm zamanların en düşük yeni fiyatına ulaştı, ancak sınırlı bir süre için

Webb, Örümcek Ağı protokümesi alanında yeni galaksiler buluyor

Kırmızı dev XX Trianguli’nin yıldız lekesi aktivitesi periyodik olmayan, kaotik bir dinamoya işaret ediyor

Yayın astronomi veritabanları oluşturmaya yönelik adımları özetlemektedir

Proba-3’ün beş uzay gizemi çözülmesine yardımcı olacak

İlginizi Çekebilir

OpenAI mürekkepleri Anduril’in anti-drone teknolojisini geliştirmek için anlaştı

Olağanüstü yeni Siber Pazartesi fırsatı, Lenovo Tab M11’i her zamankinden daha ucuz hale getiriyor

OpenAI, savunma teknolojisi şirketi Anduril ile ortaklık kuruyor

‘Empatim Ağ Dışında’