Vektör veritabanları Alana giren startupların sayısına ve pastadan pay almak için para yatıran yatırımcılara bakılırsa tüm öfke. Büyük dil modellerinin (LLM’ler) çoğalması ve üretken yapay zeka (GenAI) hareketi, vektör veritabanı teknolojilerinin gelişmesi için verimli bir zemin yarattı.

Postgres veya MySQL gibi geleneksel ilişkisel veritabanları yapılandırılmış verilere (satırlar ve sütunlar halinde düzgün bir şekilde dosyalanabilen önceden tanımlanmış veri türleri) çok uygun olsa da, bu durum resimler, videolar, e-postalar, sosyal medya gibi yapılandırılmamış veriler için pek işe yaramıyor gönderiler ve önceden tanımlanmış bir veri modeline uymayan tüm veriler.

Öte yandan vektör veritabanları, metni, belgeleri, görüntüleri ve diğer verileri farklı veri noktaları arasındaki anlamı ve ilişkileri yakalayan sayısal temsillere dönüştüren vektör yerleştirmeleri biçiminde verileri depolar ve işler. Veritabanı, verileri her bir öğenin diğeriyle ne kadar alakalı olduğuna göre uzamsal olarak depoladığından ve anlamsal olarak benzer verilerin alınmasını kolaylaştırdığından, bu, makine öğrenimi için mükemmeldir.

Bu, özellikle OpenAI’nin GPT-4’ü gibi Yüksek Lisans’lar için kullanışlıdır çünkü AI chatbot’un önceki benzer konuşmaları analiz ederek bir konuşmanın içeriğini daha iyi anlamasını sağlar. Vektör arama aynı zamanda sosyal ağlardaki veya e-ticaret uygulamalarındaki içerik önerileri gibi her türlü gerçek zamanlı uygulama için de kullanışlıdır; çünkü bir kullanıcının ne aradığını görebilir ve benzer öğeleri anında geri getirebilir.

Vektör arama aynı zamanda orijinal eğitim veri setinde bulunmayan ek bilgiler sağlayarak LLM uygulamalarındaki “halüsinasyonların” azaltılmasına da yardımcı olabilir.

“Vektör benzerlik aramasını kullanmadan da AI/ML uygulamaları geliştirebilirsiniz ancak daha fazla yeniden eğitim ve ince ayar yapmanız gerekir.” André Zayarnivektör arama girişiminin CEO’su ve kurucu ortağı QdrantTechCrunch’a açıklandı. “Büyük bir veri kümesi olduğunda vektör veritabanları devreye giriyor ve vektör yerleştirmelerle verimli ve rahat bir şekilde çalışmak için bir araca ihtiyacınız var.”

Ocak ayında Qdrant, büyümeden yararlanmak için 28 milyon dolarlık fon sağladı ve bu da onun geçen yıl en hızlı büyüyen 10 ticari açık kaynak startup’ından biri olmasını sağladı. Ve son zamanlarda nakit toplayan tek vektör veri tabanı girişimi olmaktan çok uzak — Vespa, DokumaÇam Kozalağı ve Renk çeşitli vektör teklifleri için geçen yıl toplu olarak 200 milyon dolar topladı.

Qdrant kurucu ekibi

Qdrant kurucu ekibi. Resim Kredileri: Qdrant

Yılın başından bu yana Index Ventures’ı da gördük. 9,5 milyon dolarlık bir tohum turuna liderlik etmek içine Süper bağlantılıkarmaşık verileri vektör yerleştirmelerine dönüştüren bir platform. Ve birkaç hafta önce Y Combinator (YC), Winter ’24 kohortunu açıkladı; FenerPostgres için barındırılan bir vektör arama motoru satan bir girişim.

Başka yerde, Marko Geçen yılın sonlarında 4,4 milyon dolarlık bir tohum toplama turu toplandı ve bunu hızlı bir şekilde takip eden bir 12,5 milyon dolarlık A Serisi turu Şubatta. Marqo platformu, vektör oluşturmayı, depolamayı ve almayı kapsayan, kullanıma hazır tam bir vektör araçları yelpazesi sunarak kullanıcıların OpenAI veya Hugging Face gibi üçüncü taraf araçları atlatmasına olanak tanır ve her şeyi tek bir API aracılığıyla sunar.

Marqo’nun kurucu ortakları Tom Hamer Ve Jesse N. Clark daha önce mühendislik pozisyonlarında çalışmış Amazon, metin ve görseller gibi farklı yöntemlerde anlamsal, esnek aramaya yönelik “karşılanmayan büyük ihtiyacın” farkına vardılar. İşte o zaman 2021’de Marqo’yu oluşturmak için gemiye atladılar.

Clark, TechCrunch’a şunları söyledi: “Amazon’da görsel arama ve robotik ile çalışmak, vektör aramaya gerçekten baktığım zamandı; ürün keşfi yapmanın yeni yollarını düşünüyordum ve bu çok hızlı bir şekilde vektör aramaya yaklaştı.” “Robot biliminde, hortumlar ve paketler gibi hatalı şeylerin olup olmadığını belirlemek amacıyla birçok görselimizde arama yapmak için çok modlu aramayı kullanıyordum. Aksi halde bunu çözmek çok zor olacaktı.”

Marqo'nun kurucu ortakları

Marqo’nun kurucu ortakları Jesse Clark ve Tom Hamer. Resim Kredileri: Marqo

İşletmeye girin

Vektör veritabanları, ChatGPT ve GenAI hareketinin kargaşasının ortasında bir an yaşıyor olsa da, her kurumsal arama senaryosu için her derde deva değiller.

“Özel veritabanları tamamen belirli kullanım örneklerine odaklanma eğilimindedir ve dolayısıyla mevcut tasarıma uyması gereken genel amaçlı veritabanlarıyla karşılaştırıldığında, mimarilerini ihtiyaç duyulan görevlerde performans ve kullanıcı deneyimine göre tasarlayabilir.” Peter ZaitsevVeritabanı destek ve hizmet şirketi Percona’nın kurucusu TechCrunch’a açıkladı.

Özel veritabanları bir konuda diğerlerini dışlayacak kadar üstün olabilirken, bu yüzden şunu görmeye başlıyoruz: veritabanı görevlileri örneğin Elastik, Redis, Açık Arama, Kassandra, KahinVe MongoDB bulut hizmeti sağlayıcıları gibi vektör veritabanı arama akıllılarını da karışıma eklemek Microsoft’un Azure’u, Amazon’un AWS’siVe Bulut parlaması.

Zaitsev, bu son trendi şu anda olanlarla karşılaştırıyor: JSON On yıldan fazla bir süre önce, web uygulamaları daha yaygın hale geldiğinde ve geliştiriciler, insanların okuması ve yazması kolay, dilden bağımsız bir veri formatına ihtiyaç duyuyordu. Bu durumda MongoDB gibi belge veri tabanları şeklinde yeni bir veri tabanı sınıfı ortaya çıkarken mevcut ilişkisel veri tabanları da ortaya çıkmıştır. JSON desteğini tanıttı.

Zaitsev TechCrunch’a “Aynı şeyin vektör veritabanlarında da olabileceğini düşünüyorum” dedi. “Çok karmaşık ve büyük ölçekli yapay zeka uygulamaları geliştiren kullanıcılar, özel vektör arama veritabanlarını kullanacak, mevcut uygulamaları için bir miktar yapay zeka işlevselliği oluşturması gereken kişilerin ise halihazırda kullandıkları veritabanlarında vektör arama işlevini kullanma olasılıkları daha yüksek. ”

Ancak Zayarni ve Qdrant meslektaşları, şirketlerin sonradan akla gelen bir düşünce olarak vektör aramayı devreye sokmasıyla karşılaştırıldığında, tamamen vektörler etrafında oluşturulan yerel çözümlerin, vektör verileri patladığında ihtiyaç duyulan “hızı, bellek güvenliğini ve ölçeği” sağlayacağına bahse giriyor.

Zayarni, “Sözleri şu: ‘Gerekirse vektör araması da yapabiliriz'” dedi. “Bizim satış konuşmamız şu: ‘gelişmiş vektör aramasını mümkün olan en iyi şekilde yapıyoruz.’ Her şey uzmanlıkla alakalı. Aslında teknoloji yığınınızda halihazırda bulunan veritabanıyla başlamanızı öneririz. Vektör aramanın çözümünüzün kritik bir bileşeni olması durumunda kullanıcılar bir noktada sınırlamalarla karşılaşacaktır.”



genel-24