Giskard'ın açık kaynak çerçevesi, yapay zeka modellerini üretime aktarılmadan önce değerlendiriyor - Dünyadan Güncel Teknoloji Haberleri

Giskard büyük dil modelleri için açık kaynaklı bir test çerçevesi üzerinde çalışan bir Fransız girişimidir. Geliştiricileri önyargı riskleri, güvenlik açıkları ve bir modelin zararlı veya toksik içerik üretme yeteneği konusunda uyarabilir.

Yapay zeka modelleri etrafında çok fazla abartılı reklam olsa da, AB’de Yapay Zeka Yasası ile düzenlemenin yürürlüğe girmesi ve diğer ülkelerde de ML test sistemleri hızla gündemdeki bir konu haline gelecektir. Yapay zeka modelleri geliştiren şirketlerin, ağır para cezaları ödememek için bir dizi kurala uyduklarını ve riskleri azalttıklarını kanıtlamaları gerekecek.

Giskard, düzenlemeyi benimseyen bir yapay zeka girişimidir ve özellikle daha verimli bir şekilde test etmeye odaklanan bir geliştirici aracının ilk örneklerinden biridir.

“Daha önce Dataiku’da özellikle NLP model entegrasyonu konusunda çalıştım. Testlerden sorumlu olduğum dönemde, bunları pratik durumlara uygulamak istediğinizde her iki şeyin de iyi sonuç vermediğini ve tedarikçilerin performanslarını birbirleriyle karşılaştırmanın çok zor olduğunu görebiliyordum.” Giskard’ın kurucu ortağı ve CEO’su Alex Combessie bana söyledi.

Giskard’ın test çerçevesinin arkasında üç bileşen bulunmaktadır. İlk olarak şirket piyasaya çıktı açık kaynaklı bir Python kütüphanesi bir LLM projesine ve daha spesifik olarak erişimle artırılmış nesil (RAG) projelerine entegre edilebilir. GitHub’da zaten oldukça popüler ve Hugging Face, MLFlow, Weights & Biases, PyTorch, Tensorflow ve Langchain gibi ML ekosistemlerindeki diğer araçlarla uyumlu.

İlk kurulumdan sonra Giskard, modelinizde düzenli olarak kullanılacak bir test paketi oluşturmanıza yardımcı olur. Bu testler; performans, halüsinasyonlar, yanlış bilgilendirme, gerçek dışı çıktılar, önyargılar, veri sızıntısı, zararlı içerik üretimi ve hızlı enjeksiyonlar gibi çok çeşitli konuları kapsamaktadır.

“Ve bunun birkaç yönü var: performans yönüne sahip olacaksınız ki bu, bir veri bilimcinin aklına gelen ilk şey olacaktır. Ancak hem marka imajı açısından hem de artık düzenleyici açıdan bakıldığında etik yönü giderek daha fazla ortaya çıkıyor,” dedi Combessie.

Geliştiriciler daha sonra testleri sürekli entegrasyon ve sürekli teslim (CI/CD) hattına entegre edebilir, böylece kod tabanında yeni bir yineleme olduğunda testler çalıştırılır. Örneğin, bir sorun varsa geliştiriciler GitHub depolarında bir tarama raporu alırlar.

Testler, modelin son kullanım durumuna göre özelleştirilir. RAG üzerinde çalışan şirketler, test paketinin mümkün olduğu kadar alakalı olması için Giskard’a vektör veritabanlarına ve bilgi havuzlarına erişim verebilir. Örneğin, IPCC’nin en son raporuna dayanarak size iklim değişikliği hakkında bilgi verebilecek bir sohbet robotu oluşturuyorsanız ve OpenAI’den bir LLM kullanıyorsanız Giskard testleri, modelin iklim değişikliği hakkında yanlış bilgi üretip üretmediğini, kendisiyle çelişip çelişmediğini kontrol edecektir. , vesaire.

Resim Kredisi: Giskard

Giskard’ın ikinci ürünü, büyük bir dil modelinde hata ayıklamanıza ve onu diğer modellerle karşılaştırmanıza yardımcı olan bir yapay zeka kalite merkezidir. Bu kalite merkezi Giskard’ın bir parçasıdır prim teklifi. Gelecekte girişim, bir modelin düzenlemelere uygun olduğunu kanıtlayan belgeler üretebileceğini umuyor.

“Yapay Zeka Kalite Merkezi’ni Banque de France ve L’Oréal gibi şirketlere, hata ayıklamalarına ve hataların nedenlerini bulmalarına yardımcı olmak için satmaya başlıyoruz. Gelecekte tüm düzenleyici özellikleri buraya koyacağız” dedi Combessie.

Şirketin üçüncü ürününe LLMon adı veriliyor. Yanıt kullanıcıya geri gönderilmeden önce en yaygın sorunlara (toksisite, halüsinasyon, doğruluk kontrolü…) ilişkin LLM yanıtlarını değerlendirebilen gerçek zamanlı bir izleme aracıdır.

Şu anda OpenAI’nin API’lerini ve LLM’lerini temel model olarak kullanan şirketlerle çalışıyor ancak şirket Hugging Face, Anthropic vb. ile entegrasyonlar üzerinde çalışıyor.

Kullanım durumlarının düzenlenmesi

Yapay zeka modellerini düzenlemenin birkaç yolu vardır. Yapay zeka ekosistemindeki insanlarla yapılan görüşmelere dayanarak, Yapay Zeka Yasasının OpenAI, Anthropic, Mistral ve diğerlerinin temel modellerine mi yoksa yalnızca uygulamalı kullanım senaryolarına mı uygulanacağı hala belirsiz.

İkinci durumda, Giskard, geliştiricileri harici verilerle zenginleştirilmiş LLM’lerin (ya da yapay zeka araştırmacılarının söylediği gibi, erişimle artırılmış nesil, RAG) olası kötüye kullanımları konusunda uyarmak için özellikle iyi konumlandırılmış görünüyor.

Şu anda Giskard için çalışan 20 kişi var. Combessie, “LLM’lerdeki müşterilerle çok açık bir pazar uyumu görüyoruz, bu nedenle piyasadaki en iyi LLM antivirüs yazılımı olmak için ekibin boyutunu kabaca iki katına çıkaracağız” dedi.

genel-24

Giskard’ın açık kaynak çerçevesi, yapay zeka modellerini üretime aktarılmadan önce değerlendiriyor

Byteknomers

Kullanım durumlarının düzenlenmesi

By teknomers

Benzer İçerikler

Türkiye’nin İlk Yatırım Tabanlı Girişimcilik Destek Programı olan BİGG Yatırım Programının 2024-2 Çağrısı Yeniliklerle Devam Ediyor!

Aktris Felicia Day, Thangs 3D Printing topluluğuna katıldı ve kendi indirilebilir modellerini paylaşıyor

Haftanın En İyi 5 Android ve iOS Uygulaması: Dadish 3D, Harita Uygulaması ve Daha Fazlası!

Haikyu’nun biletleri satışta!! Çöp Kutusu Savaşı

Anime Expo, Ryoko Kui’yi Onur Konuğu Olarak Açıkladı

Akuma’nın Karakter Rehberi Erken Geliyor

Rapor: EA’da Yürütülen Cinsel Suistimal Soruşturması, Şüphelilerin İsimleri Belirlendi ve Ne Yaptıkları Ortaya Çıktı

Motorola Razr+ 2023 hala fiyatından 300 $ indirimli ve hatta ücretsiz Bose kulaklıklarla satın alınabiliyor

Samsung’un Apple’a katlanabilir ekran tedariki için anlaşma imzaladığı bildirildi

Mahkeme, SIM takas kurbanının 60 bin dolarlık kripto hırsızlığı nedeniyle operatörünü dava etmesini önledi

Üzgünüm dünya! Samsung’un ilk deri telefonu Çin için – Çin’de kimsenin umurunda olmasa bile!

Karanlık maddenin ana rakip teorisi öldü mü? Cassini uzay aracı ve diğer yeni testler MOND’u geçersiz kılabilir

Webb İlk Kez Kayalık Ötegezegenin Atmosferini Buldu

Bir araştırmacı Samanyolu ile bağlantısını keşfetmek için modern astronomiyi nasıl kullandı?

Einstein Antarktika Buzunda Kuantum Mekaniğiyle Buluşuyor

İlginizi Çekebilir

Bir yıllık cep telefonu hizmetini önceden satın alabilirsiniz – ama satın almalı mısınız?

Türkiye’nin İlk Yatırım Tabanlı Girişimcilik Destek Programı olan BİGG Yatırım Programının 2024-2 Çağrısı Yeniliklerle Devam Ediyor!

İki adet 2,5 Gbps bağlantı noktasına ve “yumuşak yönlendirme” için tasarlanmış 4 çekirdekli işlemciye sahip, 95 dolarlık bir bilgisayar. Bestcom N100 Pro II tanıtıldı

Helldivers 2 Steam’in durumu “olumlu görünmüyor” diyor CEO