Geçtiğimiz baharda yatırımcılara yaptığı bir konuşmada Anthropic, araştırma yapabilecek, e-postalara cevap verebilecek ve diğer arka ofis işlerini kendi başlarına halledebilecek sanal asistanlara güç sağlamak için yapay zeka oluşturmayı amaçladığını söyledi. Şirket bunu “Yapay Zekanın kendi kendine öğretmesi için yeni nesil algoritma” olarak adlandırdı; her şey planlandığı gibi giderse bir gün ekonominin büyük bölümlerini otomatikleştirebileceğine inanıyordu.
Biraz zaman aldı ama yapay zeka gelmeye başlıyor.
Salı günü antropik piyasaya sürülmüş Claude 3.5 Sonnet modelinin, herhangi bir masaüstü uygulamasını anlayabilen ve bunlarla etkileşim kurabilen yükseltilmiş bir sürümü. Model, artık açık beta sürümünde olan yeni bir “Bilgisayar Kullanımı” API’si aracılığıyla tuş vuruşlarını, düğme tıklamalarını ve fare hareketlerini taklit ederek esasen bilgisayar başında oturan bir kişiyi taklit edebilir.
Anthropic, TechCrunch ile paylaştığı bir blog yazısında “Claude’u ekranda neler olduğunu görmesi ve ardından görevleri gerçekleştirmek için mevcut yazılım araçlarını kullanması konusunda eğittik” diye yazdı. “Bir geliştirici Claude’a bir bilgisayar yazılımı kullanma görevi verdiğinde ve ona gerekli erişimi verdiğinde, Claude kullanıcının görebildiği ekran görüntülerine bakar ve ardından tıklamak için imleci dikey veya yatay olarak kaç piksel hareket ettirmesi gerektiğini sayar. doğru yer.”
Geliştiriciler Bilgisayar Kullanımını Anthropic’in API’si, Amazon Bedrock ve Google Cloud’un Vertex AI platformu aracılığıyla deneyebilir. Yeni 3.5 Sonnet olmadan Bilgisayar Kullanımı, Claude uygulamalarına yayılıyor ve mevcut 3.5 Sonnet modeline göre çeşitli performans iyileştirmeleri getiriyor.
Uygulamaları otomatikleştirme
PC’deki görevleri otomatikleştirebilecek bir araç pek de yeni bir fikir değil. Onlarca yıllık RPA satıcılarından Relay, Induced AI ve Automat gibi daha yeni girişimlere kadar sayısız şirket bu tür araçları sunuyor.
Sözde “Yapay Zeka ajanları” geliştirme yarışında saha daha da kalabalıklaştı. Yapay zeka aracıları, yanlış tanımlanmış bir terim olmaya devam ediyor ancak genel olarak yazılımı otomatikleştirebilen yapay zekayı ifade ediyor.
Bazı analistler Yapay zeka temsilcilerinin şirketlere yapay zekaya akıttıkları milyarlarca dolardan para kazanmaları için daha kolay bir yol sağlayabileceğini söylüyor. Şirketler aynı fikirde görünüyor: Yakın tarihli bir Capgemini’ye göre anketKuruluşların %10’u halihazırda yapay zeka aracılarını kullanıyor ve %82’si bunları önümüzdeki üç yıl içinde entegre edecek.
Salesforce bu yaz yapay zeka aracı teknolojisi hakkında çarpıcı duyurular yaparken, Microsoft lanse edildi Dün AI ajanları oluşturmak için yeni araçlar. OpenAI, yani Kendi markalı yapay zeka ajanlarını planlıyorteknolojiyi süper akıllı yapay zekaya doğru bir adım olarak görüyor.
Anthropic, AI aracı konseptini, yeni 3.5 Sonnet’in masaüstü düzeyinde komutlar gerçekleştirmesine olanak tanıyan bir “eylem yürütme katmanı” olarak adlandırıyor. Web’de gezinme yeteneği sayesinde (AI modelleri için bir ilk değil, ancak Anthropic için bir ilk), 3.5 Sonnet herhangi bir web sitesini ve herhangi bir uygulamayı kullanabilir.
Antropik bir sözcü TechCrunch’a şöyle konuştu: “İnsanlar, ‘bu formu doldurmak için bilgisayarımdaki ve çevrimiçi verileri kullan’ gibi Claude’un eylemlerini yönlendiren belirli komutlar sağlayarak kontrolü elinde tutuyor.” “İnsanlar erişimi gerektiği gibi etkinleştiriyor ve erişimi sınırlandırıyor. Claude, belirli bir görevi gerçekleştirmek için kullanıcının istemlerini bilgisayar komutlarına (örneğin, imleci hareket ettirme, tıklama, yazma) böler.”
Yazılım geliştirme platformu Replit, uygulamaları henüz geliştirilme aşamasında değerlendirebilen bir “otonom doğrulayıcı” oluşturmak için yeni 3.5 Sonnet modelinin eski bir sürümünü kullandı. Bu arada Canva, yeni modelin tasarım ve düzenleme sürecini destekleyebileceği yolları araştırdığını söylüyor.
Peki bunun diğer yapay zeka ajanlarından ne farkı var? Bu makul bir soru. Tüketici gadget’ı girişimi Rabbit, çevrimiçi sinema bileti satın almak gibi şeyler yapabilen bir web aracısı geliştiriyor; Yakın zamanda Amazon tarafından satın alınan Adept, web sitelerine göz atmak ve yazılımlarda gezinmek için modeller eğitiyor; Twin Labs, masaüstü işlemlerini otomatikleştirmek için OpenAI’nin GPT-4o’su da dahil olmak üzere hazır modelleri kullanıyor.
Anthropic, yeni 3.5 Sonnet’in, SWE-bench Verified kriterine göre kodlama görevlerinde OpenAI’nin amiral gemisi o1’den bile daha iyi performans gösterebilen daha güçlü, daha sağlam bir model olduğunu iddia ediyor. Yükseltilmiş 3.5 Sonnet, bunu yapmak için açık bir şekilde eğitilmemesine rağmen, engellerle karşılaştığında kendi kendini düzeltir ve görevleri yeniden dener ve düzinelerce veya yüzlerce adım gerektiren hedeflere doğru çalışabilir.
Ama henüz sekreterinizi kovmayın.
Bir AI temsilcisinin, uçuş rezervasyonunu değiştirmek gibi havayolu rezervasyon görevlerine yardımcı olma yeteneğini test etmek için tasarlanan bir değerlendirmede, yeni 3.5 Sonnet, görevlerin yarısından azını başarıyla tamamlamayı başardı. Geri dönüşü başlatmak gibi görevleri içeren ayrı bir testte 3.5 Sonnet, kabaca üçte bir oranında başarısız oldu.
Anthropic, yükseltilmiş 3.5 Sonnet’in kaydırma ve yakınlaştırma gibi temel eylemlerde zorluk yaşadığını ve ekran görüntüleri alıp bunları bir araya getirme şekli nedeniyle “kısa ömürlü” eylemleri ve bildirimleri kaçırabildiğini kabul ediyor.
Anthropic, gönderisinde “Claude’un Bilgisayar Kullanımı yavaş ve sıklıkla hataya açık olmaya devam ediyor” diye yazıyor. “Geliştiricileri araştırmaya düşük riskli görevlerle başlamaya teşvik ediyoruz.”
Riskli iş
Peki yeni 3.5 Sonnet tehlikeli olabilecek kadar yetenekli mi? Muhtemelen.
Yakın zamanda çalışmak bu modelleri buldum olmadan OpenAI’nin GPT-4o’su gibi masaüstü uygulamalarını kullanma yeteneği olan kişiler, jailbreak teknikleri kullanılarak “saldırıya uğradığında” karanlık ağdaki birinden sahte pasaport sipariş etmek gibi zararlı “çok adımlı ajan davranışına” girmeye istekliydi. Araştırmacılara göre jailbreak’ler, filtreler ve güvenlik önlemleriyle korunan modellerde bile zararlı görevlerin yerine getirilmesinde yüksek oranda başarı elde edilmesini sağladı.
Nasıl bir model olduğunu hayal edebilirsiniz ile masaüstü erişimi bozulabilir Daha tahribat – diyelim ki sömürmek kişisel bilgileri tehlikeye atacak uygulama güvenlik açıkları (veya sohbetleri düz metin olarak saklamak). Elindeki yazılım araçlarının yanı sıra, modelin çevrimiçi ve uygulama bağlantıları da yeni yollar açabilir. kötü niyetli jailbreakçiler.
Anthropic, yeni 3.5 Sonnet’i yayınlamanın risk taşıdığını inkar etmiyor. Ancak şirket, modelin vahşi doğada nasıl kullanıldığını gözlemlemenin faydalarının sonuçta bu riskten daha ağır bastığını savunuyor.
Şirket, “Günümüzün daha sınırlı, nispeten daha güvenli modellerine bilgisayar erişimi vermenin çok daha iyi olacağını düşünüyoruz” diye yazdı. “Bu, bu alt seviyede ortaya çıkan olası sorunları gözlemlemeye ve bunlardan ders almaya başlayabileceğimiz, bilgisayar kullanımını ve güvenlik önlemlerini kademeli ve eş zamanlı olarak geliştirebileceğimiz anlamına geliyor.”
Anthropic ayrıca, yeni 3.5 Sonnet’i kullanıcıların ekran görüntüleri ve istemleri üzerine eğitmemek ve modelin eğitim sırasında web’e erişmesini engellemek gibi kötüye kullanımı caydırmak için adımlar attığını da söylüyor. Şirket, 3.5 Sonnet’i sosyal medyada paylaşım yapmak, hesap oluşturmak ve devlet web siteleriyle etkileşimde bulunmak gibi yüksek riskli olarak algılanan eylemlerden “dürtmek” için sınıflandırıcılar geliştirdiğini söylüyor.
ABD genel seçimleri yaklaşırken Anthropic, modellerinin seçimle ilgili suiistimallerini hafifletmeye odaklandığını söylüyor. Yapay Zeka modeli riskini değerlendirmeye adanmış iki ayrı ancak müttefik devlet kurumu olan ABD Yapay Zeka Güvenlik Enstitüsü ve Birleşik Krallık Güvenlik Enstitüsü, yeni 3.5 Sonnet’i kullanıma sunulmadan önce test etti.
Anthropic, TechCrunch’a, örneğin spam, sahtekarlık ve yanlış bilgilere karşı koruma sağlamak için “gerekirse” ek web sitelerine ve özelliklere erişimi kısıtlama yeteneğine sahip olduğunu söyledi. Bir güvenlik önlemi olarak şirket, Bilgisayar Kullanımı tarafından çekilen ekran görüntülerini en az 30 gün boyunca saklıyor; bu, bazı geliştiricileri alarma geçirebilecek bir saklama süresi.
Anthropic’e, eğer varsa, hangi koşullar altında ekran görüntülerini istendiği takdirde üçüncü bir tarafa (örneğin kolluk kuvvetlerine) teslim edeceğini sorduk. Bir sözcü, şirketin “geçerli yasal sürece yanıt olarak veri taleplerine uyacağını” söyledi.
Anthropic, “Kusursuz yöntemler yoktur ve Claude’un yeteneklerini sorumlu kullanımla dengelemek için güvenlik önlemlerimizi sürekli olarak değerlendirip yineleyeceğiz” dedi. “Claude’un bilgisayar kullanımlı sürümünü kullananlar, bu tür riskleri en aza indirmek için Claude’u bilgisayarlarındaki özellikle hassas verilerden yalıtmak da dahil olmak üzere ilgili önlemleri almalıdır.”
Umuyoruz ki bu, en kötüsünün meydana gelmesini önlemek için yeterli olacaktır.
Daha ucuz bir model
Bugünün başrol oyuncusu yükseltilmiş 3.5 Sonnet modeli olabilir, ancak Anthropic aynı zamanda Claude serisinin en ucuz ve en verimli modeli olan Haiku’nun güncellenmiş bir versiyonunun da yolda olduğunu söyledi.
Önümüzdeki haftalarda piyasaya sürülecek olan Claude 3.5 Haiku, bir zamanlar Anthropic’in son teknoloji modeli olan Claude 3 Opus’un performansını, Claude 3 Haiku ile aynı maliyet ve “yaklaşık hız” ile belirli kriterlerde eşleştirecek.
“Düşük gecikme süresi, iyileştirilmiş talimat takibi ve daha doğru araç kullanımıyla Claude 3.5 Haiku, kullanıcıya yönelik ürünler, uzmanlaşmış alt aracı görevleri ve satın alma geçmişi, fiyatlandırma veya satın alma geçmişi gibi büyük hacimli verilerden kişiselleştirilmiş deneyimler oluşturmak için çok uygundur. Envanter verileri,” diye yazdı Anthropic. blog yazısı.
3.5 Haiku başlangıçta salt metinden oluşan bir model olarak, daha sonra ise hem metni hem de görüntüleri analiz edebilen çok modlu bir paketin parçası olarak mevcut olacak.
Peki 3.5 Haiku kullanıma sunulduğunda 3 Opus’u kullanmak için pek çok neden olacak mı? Anthropic’in Haziran ayında alay ettiği 3 Opus’un halefi olan 3.5 Opus’a ne dersiniz?
Anthropic sözcüsü, “Claude 3 model ailesindeki tüm modellerin müşteriler için bireysel kullanımları var” dedi. “Claude 3.5 Opus yol haritamızda ve mümkün olan en kısa sürede daha fazlasını paylaşacağımızdan emin olabilirsiniz.”
TechCrunch’ın yapay zeka odaklı bir haber bülteni var! Buradan kaydolun Her Çarşamba gelen kutunuza almak için.