Çoğumuz büyük dil modelleri hakkında düşünmeden çok önce, DataCebo kurucu ortaklar Kalyan Veeramachaneni ve Neha Patki, Sentetik Veri Kasası adı verilen açık kaynaklı bir kütüphane oluşturuyorlardı. SDV kısaca. Şirketin kökleri, her ikisinin de MIT Veri Laboratuvarı’nda çalıştığı 2018 yılına dayanıyor. Üretken yapay zeka ile metin, resim ve kod üretmenin ötesinde veri de oluşturabileceğinize dair bir fikirleri vardı.

Kaliteli iş verilerini büyük dil modellerinde (ve diğer amaçlar için) kullanması gereken, ancak bunu yapmak için PII’yi mutlaka kullanamayan şirketler için bu ilgi çekici bir fikirdir. Bugün şirket, SDV’nin kurumsal ticari versiyonunu oluşturmak için birkaç yıl harcadıktan ve 8,5 milyon dolarlık başlangıç ​​finansmanından sonra ortaya çıktı.

CEO Veeramachaneni, ilişkisel ve tablosal veritabanlarından sentetik veriler oluşturma yeteneğinin, şirketi diğer üretken yapay zeka oluşturma araçlarından ayıran şey olduğunu söylüyor. “Yazılımımız, müşterilerimizin şirket içinde özel bir üretken yapay zeka modeli oluşturmasına olanak tanıyor. Daha sonra bu sentetik verileri çeşitli kullanım durumları için kullanabilirler” dedi TechCrunch’a. Bu, sağlık hizmetlerinde, finansal hizmetlerde veya test ve model oluşturma amacıyla hassas verilerin gizlenmesinin zorunlu olduğu her yerde işe yarayabilir.

Şirketlerin geleneksel olarak sentetik verileri manüel olarak oluşturmak zorunda kaldıklarını, bunun ölçeklendirilmesi zor ve hataya açık oldukça sıkıcı bir süreç olduğunu söylüyor. Üretken yapay zekayı sorun üzerinde çalıştırarak, ihtiyacınız olan veri türünü basitçe tanımlayabilirsiniz; yazılım, gerçek veri kümesinin özelliklerine bakar ve ardından hiçbir hassas bilgiyi açığa çıkarmadan test amacıyla kaliteli bir sahte küme oluşturur.

Kurucular, son derece popüler olduğunu kanıtlayan ve yazılımın çeşitli temel parçalarını test etmelerine yardımcı olan açık kaynaklı bir araç oluşturarak işe başladılar. Ürün Başkan Yardımcısı Patki, “Bir milyonun üzerinde indirme işlemi gerçekleştirdik ve topluluğumuzda aktif olan çok sayıda insan var” dedi. Hatta binden fazla kişinin katıldığı bir Slack kanalı var.

“Ve bu sayede öncelikle temel algoritmalarımızın büyük ölçüde doğrulanmasını sağlayacağımızı düşünüyorum. Bunun işe yaradığına inanıyoruz ve bir hata veya herhangi bir şey varsa, kamuya açık açık kaynak kullanıcılarımız bunları hemen buluyor ve biz de herhangi bir sorunu çözebiliyoruz” dedi.

Açık kaynak sürümü ile ticari işletme sürümü arasındaki en büyük fark ölçektir. Kurumsal sürüm yüz tabloya kadar işleyebilir, açık kaynak ise yalnızca birkaç tabloyu işleyecek şekilde tasarlanmıştır. Şu ana kadar müşteriler 20 ila 30’a kadar tabloyu temel alan modeller oluşturuyor.

Şirketin şu anda 11 çalışanı var ve işin büyümesine bağlı olarak önümüzdeki yıl bu sayıyı 20 civarına çıkarmak için işe alım yapmayı planlıyor.

Girişimin 8,5 milyon dolarlık tohum finansmanı, Uncortained Ventures’ın katılımıyla Link Ventures ve Zetta Venture Partners tarafından yönetildi.



genel-24