Yapay zekayı geliştirmek ve çalıştırmak giderek daha maliyetli hale geliyor. OpenAI’nin yapay zeka operasyon maliyetleri ulaşmak Bu yıl 7 milyar dolar, Anthropic’in CEO’su yakın zamanda modellerin maliyetlendirme Yakında 10 milyar dolardan fazlası gelebilir.
Yapay zekayı daha ucuz hale getirmenin yolları aranıyor.
Bazı araştırmacılar mevcut model mimarilerini, yani modellerin çalışmasını sağlayan yapı ve bileşenleri optimize etmeye yönelik tekniklere odaklanıyor. Diğerleri ise uygun maliyetle ölçek büyütmenin daha iyi bir şans olduğuna inandıkları yeni mimariler geliştiriyorlar.
Karan Goel ikinci kampta yer alıyor. Başlangıçta ortak kuruculara yardım etti, KartezyaGoel, durum alanı modelleri (SSM’ler) olarak adlandırdığı, büyük miktarlarda veriyi (metin, resim vb.) aynı anda işleyebilen daha yeni, oldukça verimli bir model mimarisi üzerinde çalışıyor.
Goel, TechCrunch’a “Gerçekten kullanışlı yapay zeka modelleri oluşturmak için yeni model mimarilerinin gerekli olduğuna inanıyoruz” dedi. “Yapay zeka endüstrisi hem ticari hem de açık kaynak açısından rekabetçi bir alandır ve en iyi modeli oluşturmak başarı için çok önemlidir.”
Akademik kökler
Goel, Cartesia’ya katılmadan önce doktora derecesine sahipti. Stanford’un yapay zeka laboratuvarındaki aday, burada diğerlerinin yanı sıra bilgisayar bilimcisi Christopher Ré’nin gözetiminde çalıştı. Goel, Stanford’dayken doktora arkadaşı Albert Gu ile tanıştı. Laboratuvardaki aday ve ikisi SSM’nin ne olacağının taslağını çıkardı.
Goel sonunda Snorkel AI’da, ardından Salesforce’ta işe girdi, Gu ise Carnegie Mellon’da yardımcı doçent oldu. Ancak Gu ve Goel SSM’ler üzerinde çalışmaya devam etti ve birkaç tane yayınladı. çok önemli araştırma makaleleri mimari üzerine.
2023 yılında Gu ve Goel, Stanford’daki eski meslektaşları Arjun Desai ve Brandon Yang ile birlikte araştırmalarını ticarileştirmek amacıyla Cartesia’yı başlatmak için güçlerini birleştirmeye karar verdiler.

Kurucu ekibinde Ré’nin de yer aldığı Cartesia, günümüzün belki de en popüler SSM’si olan Mamba’nın pek çok türevinin arkasında yer alıyor. Gu ve Princeton profesörü Tri Dao, Mamba’yı geçen Aralık ayında açık bir araştırma projesi olarak başlattı ve sonraki sürümlerle geliştirmeye devam ediyor.
Cartesia, kendi SSM’lerini eğitmenin yanı sıra Mamba’nın üzerine kuruludur. Tüm SSM’ler gibi, Cartesia da yapay zekaya çalışan hafıza gibi bir şey vererek, modelleri bilgi işlem gücünden yararlanma açısından daha hızlı ve potansiyel olarak daha verimli hale getiriyor.
SSM’ler ve transformatörler
ChatGPT’den Sora’ya kadar günümüzün çoğu AI uygulaması, transformatör mimarisine sahip modeller tarafından desteklenmektedir. Bir transformatör verileri işlerken, işlediği şeyi “hatırlamak” için “gizli durum” adı verilen bir şeye girişler ekler. Örneğin, model bir kitapta çalışıyorsa gizli durum değerleri kitaptaki kelimelerin temsilleri olabilir.
Gizli durum, transformatörlerin bu kadar güçlü olmasının nedenlerinden biridir. Ama aynı zamanda verimsizliklerinin de nedeni bu. Transformatörün az önce yuttuğu bir kitap hakkında tek bir kelimeyi bile “söylemek” için, modelin tüm gizli durumunu taraması gerekir; bu da kitabın tamamını yeniden okumak kadar hesaplama gerektiren bir görevdir.
Buna karşılık, SSM’ler önceki her veri noktasını, daha önce gördükleri her şeyin bir tür özeti halinde sıkıştırır. Yeni veriler geldikçe modelin “durumu” güncellenir ve SSM önceki verilerin çoğunu atar.
Sonuç? SSM’ler, belirli veri oluşturma görevlerinde transformatörlerden daha iyi performans gösterirken büyük miktarda veriyi işleyebilir. İle çıkarım maliyetleri oldukları gibi gidiyorlar, bu gerçekten çekici bir teklif.
Etik kaygılar
Cartesia bir topluluk araştırma laboratuvarı gibi çalışıyor ve SSM’leri geliştiriyor. ortaklık hem şirket içi hem de dış kuruluşlarla. Şirketin son projesi olan Sonic, bir kişinin sesini klonlayabilen veya yeni bir ses üretip kayıttaki ton ve tempoyu ayarlayabilen bir SSM’dir.
Goel, bir API ve web kontrol paneli aracılığıyla erişilebilen Sonic’in kendi sınıfındaki en hızlı model olduğunu iddia ediyor. “Sonic, SSM’lerin ses gibi uzun bağlamlı verilerde nasıl üstün olduğunu, aynı zamanda kararlılık ve doğruluk söz konusu olduğunda en yüksek performans çıtasını koruduğunun bir göstergesidir” dedi.

Cartesia ürünleri hızlı bir şekilde göndermeyi başarsa da, diğer yapay zeka model yapımcılarını rahatsız eden aynı etik tuzakların çoğuyla karşılaştı.
Kartezya eğitimli en azından bazı SSM’leri, lisanssız telif hakkıyla korunan kitapları içerdiği bilinen açık bir veri seti olan The Pile’da. Birçok yapay zeka şirketi bunu savunuyor adil kullanım doktrin onları ihlal iddialarından korur. Ancak bu yazarların dava açmasını engellemedi Meta ve Microsoftve diğerleri, iddiaya göre modelleri The Pile’da eğittiği için.
Ve Cartesia’nın Sonic destekli ses klonlayıcısı için çok az görünür koruması var. Birkaç hafta önce, kampanya konuşmalarını kullanarak eski başkan yardımcısı Kamala Harris’in sesinin bir kopyasını oluşturmayı başardım (aşağıda dinleyin). Cartesia’nın aracı yalnızca girişimin Hizmet Şartlarına uyacağınızı belirten kutuyu işaretlemenizi gerektirir.
Cartesia bu açıdan piyasadaki diğer ses klonlama araçlarından daha kötü değildir. Ses klonlarının dövüldüğüne dair raporlar var banka güvenlik kontrolleriancak optikler muhteşem değil.
Goel, Cartesia’nın artık The Pile’da model yetiştirmediğini söylemiyor. Ancak TechCrunch’a Cartesia’nın “otomatik ve manuel inceleme” sistemlerine sahip olduğunu ve “ses doğrulama ve filigranlama sistemleri üzerinde çalıştığını” söyleyerek denetleme sorunlarını ele aldı.
Goel, “Teknik performans, kötüye kullanım ve önyargı gibi hususları test eden özel ekiplerimiz var” dedi. “Ayrıca modellerimizin güvenliği ve güvenilirliğine ilişkin ek bağımsız doğrulama sağlamak için dış denetçilerle ortaklıklar kuruyoruz… Bunun sürekli iyileştirme gerektiren devam eden bir süreç olduğunun farkındayız.”
Gelişmekte olan iş
Goel, “yüzlerce” müşterinin, otomatik arama uygulaması Goodcall da dahil olmak üzere Cartesia’nın ana gelir kaynağı olan Sonic API erişimi için ödeme yaptığını söylüyor. Cartesia’nın API’si 100.000 karaktere kadar sesli okuma için ücretsizdir; en pahalı plan ise 8 milyon karakter için ayda 299 dolardır. (Cartesia ayrıca özel destek ve özel sınırlara sahip bir kurumsal katman da sunar.)
Varsayılan olarak Cartesia, modellerini eğitmek için müşteri verilerini kullanıyor; bu duyulmamış bir politika değil, ancak gizlilik bilincine sahip kullanıcılar için pek de uygun olmayan bir politika. Hedef, kullanıcıların isterlerse kapsam dışında kalabileceklerini ve Cartesia’nın daha büyük kuruluşlar için özel saklama politikaları sunduğunu belirtiyor.
Cartesia’nın veri uygulamaları, değeri ne olursa olsun, işe zarar veriyor gibi görünmüyor – en azından Cartesia’nın teknik bir avantajı varken. Goodcall CEO’su Bob Summers, Sonic’i seçmesinin nedeninin Sonic’in tek ses üretme modeli olması olduğunu söylüyor. gecikme 90 milisaniyenin altında.
“[It] Summers, bir sonraki en iyi alternatifinden dört kat daha iyi performans gösterdiğini ekledi.

Bugün Sonic oyun oynama, seslendirme ve daha fazlası için kullanılıyor. Ancak Goel, bunun SSM’lerin yapabileceklerinin yalnızca yüzeysel bir kısmı olduğunu düşünüyor.
Onun vizyonu, herhangi bir cihazda çalışan ve metin, resim, video vb. gibi her türlü veri yöntemini neredeyse anında anlayan ve üreten modellerdir. Buna yönelik küçük bir adım olarak Cartesia, bu yaz Sonic’in gerçek zamanlı çeviri gibi uygulamalar için telefonlarda ve diğer mobil cihazlarda çalışacak şekilde optimize edilmiş bir sürümü olan Sonic On-Device’in beta sürümünü piyasaya sürdü.
Cartesia, Sonic On-Device’ın yanı sıra, SSM’leri farklı donanım yapılandırmaları için optimize etmeye yönelik bir yazılım kitaplığı olan Edge’i yayınladı ve Renekompakt bir dil modeli.
Goel, “Her cihaz için çok modlu temel model olma yönünde büyük, uzun vadeli bir vizyonumuz var” dedi. “Uzun vadeli yol haritamız, devasa bağlamlar üzerinde akıl yürütebilen gerçek zamanlı zeka yaratma hedefiyle çok modlu yapay zeka modelleri geliştirmeyi içeriyor.”
Eğer bu gerçekleşirse, Cartesia’nın potansiyel yeni müşterilerini, mimarisinin öğrenme sürecine katlanmaya değer olduğuna ikna etmesi gerekecek. Ayrıca transformatöre alternatifler deneyen diğer satıcıların da önünde kalması gerekecek.
Startup’lar Zephyra, Mistralve AI21 Laboratuvarları hibrit Mamba tabanlı modelleri eğitti. Başka yerlerde, robot biliminin öncüsü Daniela Rus liderliğindeki Liquid AI, kendi mimarisini geliştiriyor.
Goel, 26 çalışanlı Cartesia’nın kısmen yeni nakit akışı sayesinde başarıya hazır olduğunu iddia ediyor. Şirket bu ay Index Ventures liderliğindeki 22 milyon dolarlık finansman turunu tamamlayarak Cartesia’nın toplamını 27 milyon dolara çıkardı.
Index Ventures’ın ortağı Shardul Shah, Cartesia teknolojisinin bir gün müşteri hizmetleri, satış ve pazarlama, robot teknolojisi, güvenlik ve daha fazlasına yönelik uygulamalara yön vereceğini düşünüyor.
“Cartesia, transformatör tabanlı mimarilere olan geleneksel güvene meydan okuyarak, gerçek zamanlı, uygun maliyetli ve ölçeklenebilir yapay zeka uygulamaları oluşturmanın yeni yollarının kilidini açtı” dedi. “Piyasa, veri merkezlerinden cihazlara kadar her yerde çalışabilen daha hızlı, daha verimli modeller talep ediyor. Cartesia’nın teknolojisi bu vaadi yerine getirmeye ve yapay zeka inovasyonunun bir sonraki dalgasını yönlendirmeye benzersiz bir şekilde hazırlanıyor.”
A* Capital, Conviction, General Catalyst, Lightspeed ve SV Angel da San Francisco merkezli Cartesia’nın son finansman turuna katıldı.

