Bilmeniz gerekenler
- Bu ayın başlarında Microsoft, yapay zeka aracılarını gerçekçi Windows işletim sistemi ortamlarında test etmek için bir platform sağlamak üzere tasarlanan Windows Agent Arena adlı yeni bir kıyaslamayı duyurdu.
- İlk kıyaslamalar, çok modlu yapay zeka aracılarının, %74,5’lik imrenilen ortalama insan performans derecesine kıyasla %19,5’lik bir ortalama performans başarı oranına sahip olduğunu gösteriyor.
- Kriter açık kaynaklıdır ve yapay zeka aracılarının gelişimini önemli ölçüde artırabilecek derin araştırmalar için bir yol sağlar. Ancak çok sayıda kritik güvenlik ve performans kaygısı vardır.
Üretken yapay zekanın ortaya çıkışı ve geniş çapta benimsenmesiyle birlikte teknoloji, basit metin ve görüntü tabanlı yönlendirmelerden hızla geçiş yapıyor. NVIDIA CEO’su Jensen Huang, yapay zekanın bir sonraki aşamasına otonom araçların ve insansı robotların hakim olacağını öngördü ve Tesla gibi büyük teknoloji şirketlerinin bu cephede önemli sıçramalar yaptığını gördük.
Geçtiğimiz birkaç hafta boyunca Salesforce CEO’su Marc Benioff’un, yapay zeka endüstrisine büyük bir zarar verdiği iddiaları üzerine Microsoft’a öldürücü darbeler savurduğunu gördük. Benioff, “Copilot yalnızca yeni Microsoft Clippy’dir” diye ekledi. “Çalışmıyor veya değer sunmuyor.”
Salesforce CEO’su ayrıca, şirketi “haftada birkaç trilyon yapay zeka işlemi” gerçekleştirme kapasitesiyle “dünyanın en büyük yapay zeka tedarikçisi” olarak tanıtma fırsatını da kullandı. Kaçırmış olmanız durumunda, Microsoft kısa süre önce Copilot Studio’nun yakında otonom aracıların oluşturulmasını destekleyeceğini duyurdu. Salesforce’un Agentforce teklifi gibi, Microsoft’un Copilot temsilcileri de BT, pazarlama, satış, müşteri hizmetleri ve finans alanlarındaki görevlerin otomatikleştirilmesine yardımcı olacak.
Benioff, Microsoft’un duyurusunu şirketin paniğe kapıldığının bir işareti olarak gördü. Salesforce CEO’su, “Yardımcı pilot bir fiyasko çünkü Microsoft, gerçek kurumsal zekayı yaratacak veri ve kurumsal güvenlik modellerine sahip değil” diye ekledi. “Clippy 2.0 var mı?”
Daha da ilginci Microsoft, yeni bir kıyaslama başlattı. Windows Ajan Arenası bu ayın başlarında. Bağlam açısından, kıyaslama, yapay zeka aracılarının Windows işletim sistemi ortamlarında test edilmesini teşvik etmek için tasarlanmıştır. Bu nedenle, kıyaslama, çeşitli uygulamalardaki karmaşık görevleri yerine getirmek için gelişmiş ve karmaşık yeteneklere sahip yapay zeka asistanlarının geliştirilmesini potansiyel olarak hızlandırabilir.
Araştırmaya göre:
“Büyük dil modelleri, planlama ve akıl yürütme gerektiren çok modlu görevlerde insan üretkenliğini ve yazılım erişilebilirliğini artırarak bilgisayar aracıları olarak hareket etme konusunda dikkate değer bir potansiyel gösteriyor. Ancak aracı performansının gerçekçi ortamlarda ölçülmesi hâlâ zorlu bir görev olmaya devam ediyor.”
Windows Agent Arena nedir ve yapay zeka devriminde ne kadar önemlidir?
Yukarıda vurgulandığı gibi Windows Agent Arena, yapay zeka aracılarının Microsoft Edge, Microsoft Paint, Clock, VLC medya oynatıcı ve daha fazlası dahil olmak üzere gerçekçi Windows işletim sistemi ortamlarında test edilmesine yönelik bir platform sağlar.
Microsoft’a göre:
“OSWorld çerçevesini, planlama, ekranı anlama ve araç kullanımında aracı becerileri gerektiren temsili etki alanlarında 150’den fazla farklı Windows görevi oluşturmak için uyarlıyoruz. Karşılaştırma ölçütümüz de ölçeklenebilir ve çok kısa bir sürede tam bir karşılaştırma değerlendirmesi için Azure’da sorunsuz bir şekilde paralelleştirilebilir. 20 dakika.”
Microsoft Research, çerçevenin yeteneklerini keşfetmek için Navi adında çok modlu bir aracı geliştirdi. Yapay zeka modelinden, Windows Agent Arena karşılaştırmasında bir web sitesini PDF dosyasına dönüştürmek ve ana ekrana yerleştirmek de dahil olmak üzere çeşitli görevleri gerçekleştirmesi istendi. Paylaşılan kıyaslamalar, çok modlu aracının ortalama %74,5’lik ortalama insan performans puanına karşılık, %19,5’lik bir ortalama performans başarı oranına sahip olduğunu göstermektedir.
Karşılaştırma, yapay zeka kullanarak belirli görevleri otomatikleştirmenin bu noktada zorlayıcı olabileceğini gösterse de yapay zeka aracılarının geliştirilmesi için güvenilir bir platform sağlıyor.
Gizlilik ve güvenlik çoğu kullanıcıyı endişelendirmeye devam ediyor. Örneğin, Microsoft’un tartışmalı Windows Geri Çağırma özelliği çoğu Windows kullanıcısı arasında endişeye yol açarak düzenleyicilerin incelemesine yol açtı. Teknoloji devi, deneyimi daha güvenli hale getirerek ince ayar yapmaya yönelik tartışmalı özelliği aniden hatırlattı. Özelliğin yakında kullanıma sunulması bekleniyor ancak kullanıcılar bu özelliği kaldırabilir.
Benzer şekilde Navi gibi yapay zeka ajanları, kullanıcılar daha karmaşık hale geldikçe endişe yaratmaya devam ediyor. Araçlar daha gelişmiş hale geldikçe, genellikle kullanıcının kişisel kimlik bilgilerini tutan uygulamalara daha fazla erişime sahip olacaklar. Özellikle bilgisayar korsanlarının, saldırılarını daha az belirgin hale getiren yapay zeka da dahil olmak üzere karmaşık hileleri benimsedikleri göz önüne alındığında, potansiyel olarak önemli bir tehdit oluşturabilir.
Windows Agent Arena açık kaynaklıdır ve daha fazla araştırma fırsatı sunarak sonuçta güvenilir ve yetenekli modellerin hızlandırılmış gelişimini destekler. Platformun arkasındaki Microsoft araştırmacıları, güvenlik ve performans kaygılarına yanıt verirken Windows Central’a şunları söyledi:
“’Navi’ adlı bilgisayar kontrol aracımız açık kaynaktır ve araştırma projemiz Microsoft’un Phi3’ünün yanı sıra GPT-4V gibi OpenAI modellerinden yararlanmaktadır. Hem Windows Agent Arena hem de Navi açık kaynaklı olsa da, kullanılan belirli modeller ayrıdır ve ilgili sağlayıcılar tarafından korunur.
Yapay zeka sistem performansı ile insan düzeyindeki zeka arasındaki eşitsizlik, sektör çapında önemli bir sorun olmaya devam ediyor. Sürekli veri iyileştirme, ince ayar ve optimizasyon yoluyla bu sorunu çözmeye çalışıyoruz ve bu açığı kapatma yönünde istikrarlı bir ilerleme kaydediyoruz.
Sorumlu yapay zekaya yaklaşımımız, gizlilik ve güvenliği ön planda tutarak etik kurallara öncelik verir. Yapay zeka aracılarının yetkisiz erişimi veya bilgi sızıntılarını önlemesini ve kullanıcıların yapay zeka eylemlerini anlama, yönlendirme veya geçersiz kılma kontrolünü elinde tutmasını sağlıyoruz. Bu alanda ilerledikçe taahhüdümüz de aynı kalıyor: Gizliliğe saygı duyan, adaleti teşvik eden ve topluma olumlu katkıda bulunan yapay zeka oluşturmak.”
Anthropic yakın zamanda açık betada “Bilgisayar Kullanımı” adlı yeni bir API’yi tanıttı. Geliştiriciler, API aracılığıyla “Claude’u bilgisayarları insanların kullandığı şekilde kullanmaya yönlendirebilir; ekrana bakarak, imleci hareket ettirerek, düğmelere tıklayarak ve metin yazarak.”