Wikidata Embedding Projesi Nedir?
Wikimedia Deutschland, Wikipedia’nın zengin bilgilerini yapay zeka (AI) modellerinin erişimine sunduğu yeni bir veritabanını tanıttı. Bu projeye verilen isim ise Wikidata Embedding Projesi. Proje, mevcut Wikipedia verileri üzerinde vektör tabanlı anlamsal arama uygulayarak, bilgisayarların kelimelerin anlamlarını ve aralarındaki ilişkileri daha iyi anlamasına yardımcı olmayı hedefliyor. Veritabanı, toplamda neredeyse 120 milyon girişi barındırıyor.
Projenin Teknik Alt Yapısı
Wikidata Embedding Projesi, AI sistemlerinin veri kaynaklarıyla iletişim kurmasına yardımcı olan Model Context Protocol (MCP) adlı yeni bir standardın desteğiyle çalışıyor. Bu durum, verilerin doğal dil sorguları için daha erişilebilir hale gelmesini sağlıyor. Proje, Wikimedia’nın Almanya’daki şubesinin yanı sıra, Jina.AI adlı sinirsel arama şirketi ve IBM’e ait DataStax ile iş birliği içerisinde gerçekleştirildi.
Daha önce, Wikidata, Wikimedia mülklerinden makineye okunabilir veri sunuyordu; ancak, mevcut araçlar yalnızca anahtar kelime aramalarına ve SPARQL sorgularına izin veriyordu. Yeni sistem, AI modellerinin dış bilgileri çekmesine izin veren retrieve-augmented generation (RAG) sistemleriyle daha iyi çalışıyor. Bu sayede geliştiriciler, modellerini Wikipedia editörleri tarafından onaylanan bilgilerle temellendirme fırsatına sahip oluyor.
Anlamsal Bağlamın Önemi
Wikidata veritabanı, önemli anlamsal bağlamları sağlamak üzere yapılandırılmış durumda. Örneğin, “bilim insanı” kelimesi için veritabanı sorgulandığında, önde gelen nükleer bilim insanlarının yanı sıra Bell Labs’ta çalışan bilim insanlarının listeleri de ortaya çıkıyor. Ayrıca, “bilim insanı” teriminin farklı dillerdeki çevirileri, bilim insanlarının çalışırken görüntülendiği Wikimedia onaylı bir fotoğraf ve “araştırmacı” ve “akademisyen” gibi ilgili kavramlara yapılan çıkarımlar da veritabanında yer alıyor.
Veritabanının Erişilebilirliği
Wikidata Embedding Projesi’nin veritabanı, Toolforge üzerinden kamuya açık olarak erişime sunuldu. Ayrıca, 9 Ekim tarihinde ilgilenen geliştiriciler için bir webinar düzenlenecek. Bu webinar, gelişim aşamasındaki projelerin nasıl daha iyi biçimde yapılandırılabileceği konusunda bilgi vermeyi hedefliyor.
Yüksek Kaliteli Veri Beslemeleri
Yeni proje, AI geliştiricilerinin yüksek kaliteli veri kaynakları arayışında olduğu bir dönemde açılmış oldu. Eğitim sistemleri giderek daha karmaşık hale geliyor; ancak hâlâ düzgün çalışabilmeleri için sıkı bir şekilde düzenlenmiş verilere ihtiyaç duyuyorlar. Özellikle yüksek hassasiyet gerektiren uygulamalarda güvenilir veri ihtiyacı son derece acil hale geliyor. Wikipedia gibi kaynaklar, Common Crawl gibi geniş bir web sayfası koleksiyonuna göre çok daha gerçekçi verilere sahip.
Mali Sorunlar ve Etik Kaygılar
Yüksek kaliteli veri talebi bazı AI laboratuvarları için maliyetli sonuçlar doğurabiliyor. Örneğin, Anthropic, yazarların eserlerinin eğitim materyali olarak kullanıldığı bir dava ile 1.5 milyar dolar karşılığında uzlaşma yoluna gitmeyi kabul etti. Bu tür durumlar, veri erişiminde dikkatli olunmasının ne denli önemli olduğunu vurguluyor.
Açık ve İş Birlikçi Bir Yaklaşım
Wikidata AI proje yöneticisi Philippe Saadé, projenin büyük AI laboratuvarları veya teknoloji şirketlerinden bağımsız olduğunu vurguladı. Saadé, “Bu Embedding Projesi lansmanı, güçlü yapay zekanın belirli bir grup şirket tarafından kontrol edilmesi gerekmiyor.” dedi. Bu ifade, projenin açık ve iş birliğine dayalı bir yapıda olabileceğini gösteriyor ve herkes için hizmet vermeyi hedefliyor.
Yapay zeka dünyasındaki bu gelişmelerle birlikte, Wikidata Embedding Projesi, verilerin nasıl daha etkili bir şekilde kullanılabileceği konusunda önemli bir adım oluşturuyor. Gelecek dönemde, bu tür projelerin AI teknolojilerine olan etkilerini görmek oldukça heyecan verici olacaktır.


