TechCrunch’ın normal AI bültenine hoş geldiniz! Biraz hiatus gidiyoruz, ancak TechCrunch’ta sütunlarım, günlük analizlerimiz ve son dakika haberleri dahil tüm AI kapsamımızı bulabilirsiniz. Bu hikayeleri ve her gün gelen kutunuzda çok daha fazlasını istiyorsanız, günlük bültenlerimize kaydolun.
Bu hafta, milyarder Elon Musk’un AI girişimi Xai, şirketin GROK chatbot uygulamalarına güç veren en son amiral gemisi AI modeli GroK 3’ü yayınladı. Yaklaşık 200.000 GPU üzerinde eğitilen model, Openai de dahil olmak üzere diğer önde gelen modeli matematik, programlama ve daha fazlası için ölçerle yener.
Ama bu kriterler bize gerçekten ne anlatıyor?
Burada TC’de, yapay zeka endüstrisinin model iyileştirmelerini ölçen birkaç (nispeten) standartlaştırılmış yollardan biri oldukları için genellikle isteksizce karşılaştırma rakamları rapor ediyoruz. Popüler AI kriterleri ezoterik bilgi için test etme eğilimindedir ve çoğu insanın önem verdiği görevlerdeki yeterlilikle kötü ilişkili olan toplam puanlar verir.
Wharton Profesör Ethan Mollick’in işaret ettiği gibi x’de bir dizi gönderi Grook 3’ün Pazartesi günü açılmasından sonra, “daha iyi test pilleri ve bağımsız test yetkilileri için acil bir ihtiyaç var”. AI şirketleri, Mollick’in ima edildiği gibi, bu sonuçları yüz değerinde kabul etmek için daha da zor hale getiren kendi kendine bildirim kıyaslama sonuçlarını daha sık değil.
Mollick, “Halka açık kriterler hem ‘meh’ hem de doymuş, tada dayalı gıda incelemeleri gibi olmak için birçok AI testi bırakıyor” diye yazdı. “Yapay zeka çalışmak için kritik ise, daha fazlasına ihtiyacımız var.”
Kıtlık yok bağımsız testler Ve kuruluşlar Yapay zeka için yeni kriterler önermek, ancak göreceli liyakat endüstri içindeki yerleşik bir konudan uzaktır. Bazı AI yorumcuları ve uzmanları öneriyor Kıyaslamaların ekonomik etki ile hizalanması yararlılıklarını sağlamak için Diğerleri benimsemenin ve faydanın nihai ölçütlerdir.
Bu tartışma zamanın sonuna kadar öfkelenebilir. Belki bunun yerine yapmalıyız, X User Roon’un reçete ettiği gibisadece büyük AI teknik atılımlarını engelleyen yeni modellere ve kriterlere daha az dikkat edin. Kolektif akıl sağlığımız için, bir miktar AI fomo’ya neden olsa bile, bu en kötü fikir olmayabilir.
Yukarıda belirtildiği gibi, bu hafta yapay zeka içinde hiatus gidiyor. Bir yolculuğun bu roller coaster aracılığıyla bizimle, okuyuculara bağlı kaldığınız için teşekkürler. Bir dahaki sefere kadar.
Haberler

Openai “unensor” chatgpt’e çalışır: Max, Openai’nin yapay zeka geliştirme yaklaşımını “entelektüel özgürlüğü” açıkça kucaklamak için nasıl değiştirdiğini yazdı, bir konu ne kadar zorlu veya tartışmalı olursa olsun.
Mira’nın Yeni Başlangıcı: Eski Openai CTO Mira Murati’nin yeni girişimi, Düşünme Makineleri Laboratuvarı“AI için çalışmasını sağlamak için araçlar oluşturmayı amaçlıyor [people’s] benzersiz ihtiyaçlar ve hedefler. “
GROK 3 COMETH: Elon Musk’un AI girişimi Xai, en son amiral gemisi AI modeli GROK 3’ü yayınladı ve iOS ve Web için GROK uygulamaları için yeni yetenekleri tanıttı.
Çok Llama Konferansı: Meta, bu bahar üretken AI’ya adanmış ilk geliştirici konferansına ev sahipliği yapacak. Llamacon olarak adlandırılan Meta’nın Lama üretken AI modelleri ailesinden sonra konferansın 29 Nisan’da yapılması planlanıyor.
AI ve Avrupa’nın dijital egemenliği: Paul, tüm AB dillerinin “dilsel ve kültürel çeşitliliğini” koruyan “Avrupa’da şeffaf yapay zeka için bir dizi temel model” oluşturmak için yaklaşık 20 kuruluş arasında bir işbirliği olan Openeurollm’i profilledi.
Haftanın Araştırma Raporu
Openai araştırmacıları yeni bir yapay zeka ölçütü yarattı, Swe-kiracıbu güçlü AI sistemlerinin kodlama becerisini değerlendirmeyi amaçlamaktadır. Benchmark, hata düzeltmeleri ve özellik dağıtımlarından “yönetici düzeyinde” teknik uygulama önerilerine kadar değişen 1.400’den fazla serbest yazılım mühendisliği görevinden oluşmaktadır.
Openai’ye göre, en iyi performans gösteren AI modeli olan Antropic’in Claude 3.5 sonnet’i, tam SWE-kiracı ölçütünde% 40,3 puan alıyor-bu da AI’nın gidecek bir yol olduğunu gösteriyor. Araştırmacıların Openai’nin O3-Mini veya Çin AI şirketi Deepseek’in R1 gibi daha yeni modellerini karşılaştırmadıklarını belirtmek gerekir.
Haftanın Modeli
Stepfun adlı bir Çinli AI şirketi “açık” bir AI modeli yayınladı, ADIM-AUDIOçeşitli dillerde konuşmayı anlayabilir ve oluşturabilir. Step-Audio, Çince, İngilizce ve Japonca’yı destekler ve kullanıcıların şarkı söylemek de dahil olmak üzere oluşturduğu sentetik sesin duygularını ve hatta lehçesini ayarlamasına olanak tanır.
Stepfun, izinli bir lisans altında modelleri serbest bırakan iyi finanse edilen birkaç Çinli AI girişiminden biridir. 2023 yılında kurulan Stepfun Bildirildiğine göre son zamanlarda kapalı Çin devlete ait özel sermaye firmalarını içeren bir dizi yatırımcıdan birkaç yüz milyon dolar değerinde bir finansman.
Çanta
Bir AI araştırma grubu olan Nous Research, piyasaya sürülmüş İddia ettiği şey, akıl yürütmeyi ve “sezgisel dil modeli yeteneklerini” birleştiren ilk AI modellerinden biridir.
Model, Deephermes-3 önizlemesi, bazı hesaplamalı yığınların pahasına iyileştirilmiş doğruluk için uzun “düşünce zincirleri” ni açabilir ve kapatabilir. “Akıl yürütme” modunda, diğer akıl yürütme yapay zeka modellerine benzer şekilde Deephermes-3 önizlemesi, daha zor problemler için daha uzun süre “düşünüyor” ve düşünce sürecinin cevaba ulaşmasını gösteriyor.
Antropic’in yakında mimari olarak benzer bir model yayınlamayı planladığı bildirildi ve Openai, böyle bir modelin yakın vadeli yol haritasında olduğunu söyledi.

