Kurumsal veri hacmi katlanarak büyüdükçe, yapılandırılmış ve yapılandırılmamış veri kavramı artık BT departmanlarının endişelerinin merkezinde yer alıyor. Zamanla, kurumsal verilerin, resmi, standart tanımdan ziyade öncelikle örnekle tanımlanan veri türüne dayalı olarak iki alt kümeye ayrılabileceği ortaya çıktı.

Yapılandırılmış veriler tipik olarak veritabanlarında, ERP, CRM, PLM, dizin sistemlerinde ve insan verileri, finansal işlemler, klinik deney veri kümeleri vb. içeren diğer içerik yönetim araçlarında bulunur. Öte yandan, patentlerde, bilimsel makalelerde, web sitelerinde, proje çıktılarında ve sözleşmelerde bulunan metin miktarı, bilgi yöneticilerinin bunları yapılandırılmamış veri olarak etiketlemesine yol açmıştır.

Peki ya arada kalan iki gri alan:

Büyük, yapılandırılmamış içerikten oluşan belgeler bazen kategoriler, meta veriler ve özellikler kullanılarak daha iyi organize edilmeleri için içerik yönetim sistemlerinde yönetilir. Bu tür belgeler “yarı yapılandırılmış” veri terimini doğurmuştur.

Kısa içerik, sosyal ağlarda, anlık mesajlaşma sistemlerinde ve hatta veritabanı tablolarındaki birkaç sütunda barındırılan birkaç metin parçasını içerir. Yapılandırılmış veri olarak kabul edilmeli mi? Yapılandırılmamış veriler? Yarı yapılandırılmış mı? Bu kategorilerden hiçbiri yok mu? İkisi birden ?

Öyleyse bu sınıflandırma girişiminin neden gerçekleştiğini ve hepsini yönetmek için neden yeni bir yaklaşım benimsenmesi gerektiğini görelim.

Bu iki geniş kategori ne için ve nasıl kullanılıyor?

İki veri kategorisi olmasının ana nedeni, onları en iyi şekilde idare edecek yazılım sistemlerini daha iyi belirlemektir. Genel olarak Excel ve veritabanlarından başlayarak, yapılandırılmış verileri düzgün bir şekilde işlemek için birçok ürün geliştirilmiştir. Aynı zamanda, Word belgelerini, PDF’leri ve diğer metin belgelerini (diğer bir deyişle yapılandırılmamış belgeler) daha iyi barındırmak için içerik yönetim sistemleri (ortak sürücülerden başlayarak) geliştirilmiştir. Yapılandırılmış/yapılandırılmamış belge yönetim sistemleri listesi, işletmenin amacına ve beklentilerine bağlı olarak oldukça uzundur. Hepsi çok çeşitli özelliklere, yeteneklere, güçlü ve zayıf yönlere sahiptir.

Asıl zorluk, yapılandırılmamış verilerde yatmaktadır.

Bir veritabanının içeriği, az çok katı bir şemaya göre bir tablonun hücreleri içinde basitçe biçimlendirilirken, yapılandırılmamış belgeler birçok yerel dilde yazılmış yüzlerce ikili biçimi içerebilir.

Veritabanı içeriği yönetimi, veritabanında bulunan bilgiler tanımlandıktan sonra basittir. Tarihler tarih formatlarında doğru bir şekilde saklanmakta, kişi isimleri uygun alanlara net bir şekilde yazılmakta ve para miktarları, kategori isimleri, miktar değerleri vb. hepsi uygun formatlarda saklanır.

Şimdi örneğin Almanca, Rusça veya Japonca yazılmış bir düz metin belgesini ele alırsak, aynı türdeki adlandırılmış varlıkları (örneğin tarihler, kişilerin adları, nicel değerler vb.) nasıl tanımlayabiliriz. Çoğu zaman, temel arama motorları tam metin arama yapmanıza izin verir, ancak ne aradığınızı bilmeniz gerekir.

Daha da önemlisi, en alakalı belge bulunduğunda bile, belgenin belirli bir sayfasındaki bir cümle içindeki kesin bilgiyi almak için sonucu dikkatlice okumak gerekir. Bu karmaşık zorluk, yapılandırılmamış içeriğin birçok şirkette çok sık kullanılmamasının ve birçoğunun “veri odaklı” stratejilerinin hala “bilgi odaklı” olmaktan uzak olduğunu iddia etmesinin ana nedenidir.

Gelişmiş bir arama motoru kullanmanın ilgisi

Kapsamlı bağlantı ile, arama motorları, bilgi yönetim sistemi belgelerinden bağımsız olarak, kuruluşun tüm verilerine dayalı olarak gerçekten birleşik bilgilere erişim sağlamak için hem yapılandırılmış hem de yapılandırılmamış belgeleri indeksleyebilir.

Herhangi bir belge ile çalışmak mümkün olduğundan, metne kolayca erişilebilir hale gelir ve herhangi bir kullanıcı, ikili formatına bakılmaksızın herhangi bir bilgi parçası üzerinde kapsamlı aramalar yapabilir. Yerleşik doğal dil anlama teknolojileri, birden çok dilde yazılmış belge ve veri korkusunu ortadan kaldırır.

Yerleşik metin madenciliği yetenekleri, adlandırılmış varlıkların belirlenmesine yardımcı olur, böylece kişilerin adları, miktarları, konumları ve şirket adları gibi veriler, herhangi bir niteliksel ve niceliksel işlem için kolayca tanımlanabilir ve vurgulanabilir. Makine öğrenimi kullanılarak, belgeler otomatik olarak kategoriler halinde düzenlenebilir ve kullanıcı memnuniyetini en üst düzeye çıkarmak için arama sırasında kullanıcı amacı tespit edilebilir ve ilişkilendirilebilir.

Hem yapılandırılmış hem de yapılandırılmamış verileri işleme yeteneği, birden çok veri kaynağında basit birleşik aramanın ötesine geçer. Çalışan dizini, müşterilerinin verilerini yönetmek için bir müşteri ilişkileri yönetimi (CRM) sistemi, entegre bir yönetim yazılımı paketi (ERP) ve ürünleri, tedarikçileri, üretim tesislerini vb. doğru bir şekilde tanımlamak için çeşitli iş uygulamalarına sahip bir şirket. muhtemelen en yaygın ve önemli örnektir.

Dolayısıyla, bir platformun amacı, sınıfının en iyisi kurumsal arama sağlamak için metin madenciliği yeteneklerini ve arama işlevselliğini geliştirmek için iş sözcüklerini iyileştirmek ve zenginleştirmektir.

Kurumsal arama platformu yaklaşımı, yapılandırılmamış verilerden daha iyi yararlanmak için özel yapılandırılmış verileri kullanarak, yalnızca tüm çalışanların tüm kurumsal verilerde arama yapmasına olanak sağlamakla kalmaz. Ek olarak, yapılandırılmamış verileri yapılandırma yeteneğini geliştirecek ve kullanıcıların daha önce milyonlarca yapılandırılmamış belgede gizlenmiş tüm ilgili gerçekleri, varlıkları ve ilişkileri ortaya çıkarmasına yardımcı olacaktır. Ve gerçek anlamda veri odaklı olmak için gereken budur.



genel-15

Bir yanıt yazın