Verinin petrol olduğunu biliyorduk. Kaç defa okuduk? Bugün hala öyleyim ama her şey değişmiş gibi görünüyor. Artık Büyük veri hakkında neredeyse hiç konuşmuyoruz, artık moda gibi görünmüyor. En populer haliyle yapay zeka – üretken yapay zeka – inovasyona ayrılmış tüm alanları işgal etti. Gerçekte kimse kimsenin yerini tutmadı. Veri ekonomisi, kelimelerin veya soruların yerini almak için ortadan kalkmadı. Sadece faktörlerin tersine dönmesi olmuştur. İkincisi birinciden iner. Yapay zeka patlamasının kökünde büyük veri var.

Geri adım atmaya çalışalım. İlk yapay zeka (AI) sistemi, 1950’de Claude Shannon tarafından inşa edilen, bir labirentten çıkış yolunu bulabilen robotik bir fareydi. Sonra ilk sinir ağlarının hemen ardından ve en az yirmi yıl boyunca hiçbir şey olmadı. Ardından, bilgi işlem gücünde üstel bir artışa yol açan çiplerin minyatürleştirilmesi ile ağ teknolojilerinin tanıtılması arasındaki yakınsama, yapay zeka araştırma hızında bir değişikliğe yol açtı. Algoritmaları büyük miktarda veri üzerinde eğitebilme yeteneği, farkı yaratan faktördü. Öyle ki bugün ChatGpt gibi bir chatbotu sorguladığımızda kendimize en sık sorduğumuz soru şudur: Bunu size kim söyledi?

Evet, bunu sana kim söyledi? Büyük Dil Modellerini (LLM) öğrendiğiniz bilgiler ne kadar güvenilir ve doğrudur? Makine öğrenimi algoritmalarını test etmek için en yaygın olarak kullanılan on veri kümesini inceleyen bir MIT veri bilimcisi ekibi, verilerin yaklaşık %3,4’ünün yanlış veya yanlış etiketlenmiş olduğunu buldu ve bunun, bu veri kümelerini kullanan yapay zeka sistemlerinde sorunlara neden olabileceği sonucuna vardılar. Biz de bu sistemleri kullandığımızda bunu fark ettik. Özellikle başlangıçta, teknik olarak halüsinasyon denilen şeyin kurbanıydılar. Yani çok iddialı bir tonda yanlış cevap vermişler.

Bugün kendimize bu sistemleri nasıl ve ne kadar sürede düzeltebileceğimizi sormalıyız. Veri kümelerinin kalitesi nasıl geliştirilebilir? İlk altmış yılda, eğitim hesaplaması Moore Yasasına uygun olarak arttı ve kabaca her 20 ayda bir ikiye katlandı. Yaklaşık 2010’dan bu yana, bu üstel büyüme daha da hızlandı ve ikiye katlanarak yaklaşık 6 aya ulaştı. Günümüzün veri ekonomisi, doğru ve doğrulanmış verilere her zamankinden daha fazla ihtiyaç duyuyor.



genel-18