Yeni Microsoft aracı, geliştiricilerin AI davranış testlerini metinle oluşturmasını sağlıyor

Yapay zeka alanında yapılan gelişmeler, teknolojik dünyayı bir adım öteye taşırken, bir yandan da bu sistemlerin güvenliği ve uyumluluğu konusunda yeni gereksinimleri gündeme getiriyor. Microsoft, bu ihtiyaca cevap olarak, AI sistemlerinin ürün ve hizmetlere göre istenen davranışları sergileyip sergilemediğini değerlendirmeyi kolaylaştıran ASSERT framework’ünü tanıttı.

Contents

ASSERT: Yapay Zeka Değerlendirmesinde Yeni Bir Dönem
Özelleştirilmiş Değerlendirmeler için Esneklik

ASSERT: Yapay Zeka Değerlendirmesinde Yeni Bir Dönem

ASSERT, “Adaptive Spec-driven Scoring for Evaluation and Regression Testing” kısaltmasıyla anılan açık kaynaklı bir çerçeve olarak, yüksek seviyedeki doğal dilde tanımlanmış hedeflerin, politikaların ve beklenen davranışların yapılandırılmış testlere dönüşmesini sağlıyor. Microsoft, bu platformun uygulama odaklı AI davranışlarını değerlendirmenin çok daha kolay hale geldiğini belirtiyor.

Bu aracın işleyiş biçimi, geliştiricilerin bir AI modelinin beklenen davranışını ve politikalarını düz bir dilde tanımlayabilmesi; ardından bu tanımların, kabul edilebilir ve kabul edilemez davranışların belirlenerek senaryolar ve test vakaları oluşturulmasına dönüşmesini kapsıyor. Sonuçlar puanlanırken, AI sisteminin hangi yolları izlediği de kaydediliyor, böylece geliştiriciler, sistemdeki hataların nerede meydana geldiğini inceleyebiliyorlar.

Özelleştirilmiş Değerlendirmeler için Esneklik

Geliştiriciler, değerlendirmelerin kapsamını daha da özelleştirmek için sistem bağlamını, araçları ve kısıtlamaları tanımlayabiliyorlar. Örneğin, bir belge araştırma AI ajanın, şirket dışındaki kişilere e-posta göndermemesi gerektiğini, gizli bilgileri yalnızca üst düzey yöneticilere iletmesini ve önceden belirlenmiş bağlamı göz önünde bulundurarak özlü özetler sağlamasını belirtmek mümkün. ASSERT, bu kurallara göre test senaryoları oluşturarak sistemin bu kurallara uyup uymadığını sürekli olarak kontrol ediyor.

Microsoft’a göre, ASSERT, AI modellerinin belirli uygulamaların veya ürünlerin bağlamına, politikalarına ve kullanılan araçlara göre şekillenen özel davranışlar sergileyip sergilemediğini değerlendirmek için genel değerlendirmelerin ötesinde bir boşluğu dolduruyor. Microsoft’un Sorumlu AI Ürün Direktörü Sarah Bird, “Değerlendirmeler, iyi kararlar almak için kritik öneme sahiptir,” ifadelerini kullanarak sistemlerin güvenilirliği ve doğruluğu üzerindeki önemini vurguladı. Bird, ASSERT’ın, sistemlerin inşa edildiği, dağıtım sonrası ya da sürekli izleme amacıyla değerlendirilmesinde kullanılabileceğini belirtti.

Bu açıklamalar, yapay zeka endüstrisindeki daha geniş bir dönüşümün ortasında şekilleniyor. Modellerin yetenekleri geliştikçe, araştırmacıların tekrarlanabilir testler ve regresyon kontrollerine odaklandığı görülüyor; örneğin Stanford’un HELM’i ve MLCommons’ün AILuminate’ı gibi gruplar, modellerin çeşitli koşullar altında nasıl davrandığını ölçen kıyaslamalar sunmaya başladı.

Kaynak: https://techcrunch.com/2026/06/02/new-microsoft-tool-lets-devs-spin-up-ai-behavior-tests-using-text-descriptions/

ASSERT: Yapay Zeka Değerlendirmesinde Yeni Bir Dönem

Özelleştirilmiş Değerlendirmeler için Esneklik

Sanal Medya

Son Eklenenler

Samsung güvenli oynayamaz, Apple’ın katlanabilir ürünü yaklaşırken ne yapacak?

ABD, Çinli AI modellerine fikri mülkiyet hırsızlığı nedeniyle yaptırım tehdidinde bulundu

Rust ile Neden Bir Reverb Alternatifi Geliştirdim?

Nvidia Mühendislik Süper Labı: OpenAI İşlemleri ve 800VDC Demonstrasyonu

Renkli ve Uygun Fiyatlı Yeni Flip Telefon: Hayatınızı Renklendirin!

Stellantis, Mobileye ile Eller Serbest Sürüş Desteği Sağlıyor

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer