Çoğu ülkenin yasa koyucuları hala yapay zekanın etrafına nasıl korkuluklar konulacağını tartışırken, Avrupa Birliği bu yılın başlarında yapay zeka uygulamalarını düzenlemek için risk temelli bir çerçeveyi geçirerek grubun ilerisinde yer alıyor.

Kanun Ağustos ayında yürürlüğe girdi, ancak pan-AB yapay zeka yönetişim rejiminin tüm ayrıntıları hâlâ üzerinde çalışılıyor; örneğin Uygulama Kuralları geliştirilme aşamasında. Ancak önümüzdeki aylarda ve yıllarda yasanın kademeli hükümleri, yapay zeka uygulaması ve model yapımcıları için geçerli olmaya başlayacak ve böylece uyumluluk geri sayımı halihazırda canlı ve işliyor.

Yapay zeka modellerinin yasal yükümlülüklerini yerine getirip getirmediğini ve nasıl karşıladığını değerlendirmek bir sonraki zorluktur. Büyük dil modelleri (LLM) ve diğer sözde temel veya genel amaçlı yapay zekalar çoğu yapay zeka uygulamasının temelini oluşturacaktır. Dolayısıyla değerlendirme çabalarının yapay zeka kümesinin bu katmanına odaklanması önemli görünüyor.

İleri adım atın LatticeFlow AIYapay zeka risk yönetimi ve uyumluluğuna odaklanan kamu araştırma üniversitesi ETH Zürih’in bir ürünüdür.

Çarşamba günü, AB Yapay Zeka Yasasının ilk teknik yorumu olarak öne sürdüğü şeyi yayınladı; bu, bu çalışmayı temel alan açık kaynaklı bir LLM doğrulama çerçevesinin yanı sıra düzenleyici gereklilikleri teknik gerekliliklerle eşleştirmeye çalıştığı anlamına geliyor. Kompl-AI (‘compl-ai’… orada ne yaptıklarını görün!).

Aynı zamanda “ilk düzenleme odaklı Yüksek Lisans kıyaslama paketi” olarak da adlandırdıkları yapay zeka modeli değerlendirme girişimi, İsviçre Federal Teknoloji Enstitüsü ile Bulgaristan’ın Bilgisayar Bilimi, Yapay Zeka ve Teknoloji Enstitüsü (INSAIT) arasındaki uzun vadeli işbirliğinin sonucudur. ), LatticeFlow’a göre.

Yapay zeka model oluşturucuları Compl-AI sitesini kullanarak değerlendirme talep et teknolojilerinin AB Yapay Zeka Yasası gerekliliklerine uygunluğu.

LatticeFlow ayrıca Meta’nın Llama modellerinin ve OpenAI’nin GPT’sinin farklı versiyonları/boyutları gibi çeşitli ana akım LLM’lerin model değerlendirmelerini de yayınladı. AB Yapay Zeka Yasası uyumluluk liderlik tablosu Büyük Yapay Zeka için.

İkincisi, Anthropic, Google, OpenAI, Meta ve Mistral gibi modellerin performansını yasanın gereksinimlerine göre 0’dan (yani uyum yok) 1’e (tam uyumluluk) kadar sıralıyor.

Veri eksikliği olduğunda veya model üreticisi bu özelliği kullanılabilir hale getirmediğinde diğer değerlendirmeler Yok olarak işaretlenir. (Not: Yazma sırasında bazı eksi puanlar da kaydedilmişti ancak bunun Hugging Face arayüzündeki bir hatadan kaynaklandığı söylendi.)

LatticeFlow’un çerçevesi, LLM yanıtlarını, “zararsız metinlerin zararlı şekilde tamamlanması”, “önyargılı yanıtlar”, “zararlı talimatlara uyma”, “doğruluk” ve “sağduyulu muhakeme” gibi 27 kriter üzerinden değerlendirir. değerlendirmeler. Böylece her model, her sütunda bir dizi puan alır (veya aksi halde N/A).

Yapay zeka uyumluluğu karışık bir çanta

Peki büyük LLM’ler nasıl performans gösterdi? Genel bir model puanı yoktur. Dolayısıyla performans, tam olarak neyin değerlendirildiğine bağlı olarak değişir; ancak çeşitli kıyaslamalarda bazı dikkate değer yüksek ve düşük değerler vardır.

Örneğin tüm modellerde zararlı talimatlara uymama konusunda güçlü bir performans var; ve önyargılı cevaplar üretmeme konusunda genel olarak nispeten güçlü bir performans; oysa muhakeme ve genel bilgi puanları çok daha karışıktı.

Diğer yerlerde, çerçevenin adalet ölçüsü olarak kullandığı öneri tutarlılığı tüm modeller için özellikle zayıftı; hiçbiri yarı puanın üzerinde puan alamadı (ve çoğu da bunun çok altında puan aldı).

Eğitim verilerinin uygunluğu ve filigran güvenilirliği ve sağlamlığı gibi diğer alanlar, kaç sonucun Yok olarak işaretlendiği dikkate alındığında esasen değerlendirilmemiş görünmektedir.

LatticeFlow, telif hakkı ve gizlilik gibi kısayol düğmesi sorunları gibi modellerin uyumluluğunu değerlendirmenin daha zor olduğu belirli alanların bulunduğunu belirtiyor. Yani tüm cevaplara sahipmiş gibi davranmıyor.

Projeye katılan bilim insanları, çerçeveye ilişkin çalışmayı detaylandıran bir makalede, değerlendirdikleri daha küçük modellerin çoğunun (≤ 13B parametreleri) “teknik sağlamlık ve güvenlik açısından nasıl düşük puan aldığını” vurguluyor.

Ayrıca “incelenen modellerin neredeyse tamamının yüksek düzeyde çeşitlilik, ayrımcılık yapmama ve adalet elde etme konusunda mücadele ettiğini” de buldular.

“Bu eksikliklerin temel olarak model sağlayıcıların, AB Yapay Zeka Yasası’nın düzenleyici gereklilikleri tarafından vurgulanan diğer önemli hususlar pahasına, model yeteneklerini geliştirmeye orantısız bir şekilde odaklanmalarından kaynaklandığına inanıyoruz” diye ekliyorlar ve uyum son tarihlerinin LLM’yi ısırmaya başlamasıyla birlikte daha da kötüleşeceğini öne sürüyorlar. odaklarını endişe duyulan alanlara kaydırmak zorunda kalacaklar – “LLM’lerin daha dengeli bir şekilde gelişmesine yol açacak”.

Henüz kimsenin AB Yapay Zeka Yasasına uymak için neyin gerekli olacağını tam olarak bilmediği göz önüne alındığında, LatticeFlow’un çerçevesinin devam eden bir çalışma olduğu söylenebilir. Bu aynı zamanda yasanın gerekliliklerinin kıyaslanabilecek ve karşılaştırılabilecek teknik çıktılara nasıl dönüştürülebileceğine dair yalnızca bir yorumdur. Ancak bu, güçlü otomasyon teknolojilerini araştırmak ve geliştiricilerini daha güvenli kullanıma yönlendirmek için sürekli çaba gösterilmesi gereken bir konu hakkında ilginç bir başlangıç.

“Çerçeve, AB Yapay Zeka Yasasının tam uyumluluk merkezli bir değerlendirmesine yönelik ilk adımdır – ancak Yasa güncellendikçe ve çeşitli çalışma grupları ilerleme kaydettikçe kilit adımlarla ilerleyecek şekilde kolayca güncellenecek şekilde tasarlanmıştır.” LatticeFlow CEO’su Petar Tsankov TechCrunch’a söyledi. “AB Komisyonu bunu destekliyor. Toplumun ve endüstrinin tam ve kapsamlı bir Yapay Zeka Yasası değerlendirme platformuna yönelik çerçeveyi geliştirmeye devam etmesini bekliyoruz.”

Şimdiye kadarki ana çıkarımları özetleyen Tsankov, yapay zeka modellerinin “çoğunlukla uyumluluktan ziyade yetenekler için optimize edildiğinin” açık olduğunu söyledi. Kendisi aynı zamanda “dikkate değer performans boşluklarını” da işaretleyerek, uyumluluk söz konusu olduğunda bazı yüksek kapasiteli modellerin daha zayıf modellerle aynı seviyede olabileceğine işaret etti.

Tsankov’a göre siber saldırılara dayanıklılık (model düzeyinde) ve adalet özellikle endişe duyulan alanlardır ve birçok model ilk alan için %50’nin altında puan almaktadır.

“Anthropic ve OpenAI, (kapalı) modellerini jailbreak’lere ve hızlı enjeksiyonlara karşı başarılı bir şekilde hizalarken, Mistral gibi açık kaynak sağlayıcıları buna daha az vurgu yapıyor” dedi.

Ve “çoğu modelin” adalet kriterlerinde eşit derecede düşük performans göstermesi nedeniyle bunun gelecekteki çalışmalar için bir öncelik olması gerektiğini öne sürdü.

Telif hakkı ve mahremiyet gibi alanlarda Yüksek Lisans performansını kıyaslamanın zorlukları hakkında Tsankov şöyle açıkladı: “Telif hakkı konusunda zorluk, mevcut kıyaslamaların yalnızca telif hakkı olan kitapları kontrol etmesidir. Bu yaklaşımın iki önemli sınırlaması vardır: (i) bu belirli kitapların dışındaki materyalleri içeren potansiyel telif hakkı ihlallerini hesaba katmaz ve (ii) herkesin bildiği gibi zor olan model ezberlemenin miktarını belirlemeye dayanır.

“Gizlilik konusunda da zorluk benzer: Karşılaştırma yalnızca modelin belirli kişisel bilgileri ezberleyip ezberlemediğini belirlemeye çalışıyor.”

LatticeFlow, ücretsiz ve açık kaynak çerçevesinin daha geniş yapay zeka araştırma topluluğu tarafından benimsenmesini ve geliştirilmesini istiyor.

ETH Zürih’ten profesör Martin Vechev ve aynı zamanda çalışmaya dahil olan INSAIT’in kurucusu ve bilimsel direktörü yaptığı bir açıklamada, “Yapay zeka araştırmacılarını, geliştiricilerini ve düzenleyicilerini bu gelişen projeyi ilerletmek için bize katılmaya davet ediyoruz” dedi. “Diğer araştırma gruplarını ve uygulayıcıları, Yapay Zeka Yasası haritalamasını geliştirerek, yeni ölçütler ekleyerek ve bu açık kaynak çerçevesini genişleterek katkıda bulunmaya teşvik ediyoruz.

“Metodoloji, yapay zeka modellerini AB Yapay Zeka Kanununun ötesinde gelecekteki düzenleyici düzenlemelere göre değerlendirmek üzere de genişletilebilir, bu da onu farklı yetki alanlarında çalışan kuruluşlar için değerli bir araç haline getirebilir.”



genel-24