Bir süredir AI ajanları veya yapay üretken zekanın kararlar ve eylemler gerektiren az ya da çok karmaşık görevlerin otomasyonuna doğru evrimi hakkında konuşuyoruz. Bir restoranın rezervasyonu gibi en basit görevlerden, örneğin, tercih edilen parametreleri karşılayan bir daire aramak, hatta birden fazla kaynaktan veri toplayan ve bunları tutarlı raporlarda özetlemek, teklifler arasında çevrimiçi olarak alışveriş yapmak, kitap randevuları ve son olarak e -posta göndermek gibi daha karmaşık görevlere doğru gidecek bir etkileşim.
Asistanların, web’deki eylemlerimizi basitleştirip hızlandırabilen proaktif asistanlarda soruları cevaplayabilen ve akıl yürütme yeteneğine sahip basit oracles’dan dönüşmeye yönlendirecek bir evrim. Bu devrimin prodromları, Claude Opus, İkizler Projesi ve Copilot ajanları tarafından, hepsi hala olgunlaşmamış işlevselliğe veya Mistral ile işbirliği içinde geliştirilen Cisco’nun yenileme ajanı gibi çalışma ortamıyla sınırlı görevlerle geldi. Gelişmiş ajan işlevleri ile sayacın ateşlediği, daha sonra azalmış gibi görünen Manus’un son duyurusundan sonra, Openii’nin hareketi eksikti, sonunda geldi: Bugün operatör Avrupa’da mevcut.
Operatör nedir ve nasıl çalışır
Güçlü GPT-4O’nun görsel becerilerini, algılama, akıl yürütme ve eylemi entegre eden yapılandırılmış öğrenmeye dayanan sofistike bir akıl yürütme ile harmanlayan bir avangard bir model olan bilgisayar kullanan ajan tabanının (CUA) bir ajanıdır. Onun tuhaflığı, düğmeler, menüler ve metin alanları gibi günlük kullandığımız grafik kullanıcı arayüzleri (GUI) ile etkileşim kurma yeteneğinde yatmaktadır. Bu, operatörün belirli arılara ihtiyaç duymadan veya işletim sistemi seviyesine eklemelere ihtiyaç duymadan dijital ortamlarda hareket edebileceği anlamına gelir. İstenen görevi tanımlamak yeterlidir ve operatör gerisini halleder. Örneğin, Ajan’ın gerçek dünyanın ihtiyaçlarını etkili bir şekilde karşıladığını sağlamak için Openai tarafından etkinleştirilen şirketlerle Openai tarafından etkinleştirilen işbirlikleri için de bir uçuş veya otel rezervasyonu.
Bilgisayar kullanan ajan (CUA) hala başlangıçta ve sınırlamaları olmasına rağmen, Openii, bilgisayarın tam kullanımı için Osworld’de% 38,1 ve WebArena’da% 58,1 ve web tabanlı etkinlikler için% 87’lik bir başarı oranı oluşturabileceğini söyledi.
Operatör, kullanıcıya her zaman kontrolü korumaya söz verir ve ayrıca operatör, bir şifrenin değiştirilmesi, tarayıcı güvenlik isteklerinin yönetimi veya bir CAPTCHA’nın tamamlanması gibi hassas durumlarda insan müdahalesini talep etmek için proaktif olacak şekilde tasarlanmıştır. Openai’den güvenli ve etkili kullanım sağlamak için önemli bir unsur.

