Geleneksel olarak, şirketlerin sahip oldukları veri gizliliğini korumak için bazen kimlik gizleme olarak adlandırılan veri maskelemeye güveniyordu. Temel fikir, her bir kayıttan tüm kişisel olarak tanımlanabilir bilgileri (PII) kaldırmaktır. Bununla birlikte, bir dizi yüksek profilli olay, sözde kimliksizleştirilmiş verilerin bile tüketici gizliliğini sızdırabileceğini göstermiştir.

1996’da bir MIT araştırmacısı, sağlık kayıtlarını kamu seçmen kayıt verileriyle eşleştirerek sözde maskeli bir veri kümesinde o zamanki Massachusetts valisinin sağlık kayıtlarını belirledi. 2006’da UT Austin araştırmacıları, Netflix’in IMDB’den gelen verilerle birleştirerek herkese açık hale getirdiği sözde anonim bir veri kümesinde binlerce kişi tarafından izlenen filmleri yeniden tanımladı.

2022’de Doğa makalesi, araştırmacılar, sözde anonim bir veri kümesindeki cep telefonu kayıtlarının yarısından fazlasını parmak izi ve yeniden tanımlamak için AI kullandılar. Bu örneklerin tümü, sözde maskelenmiş verileri yeniden tanımlamak için saldırganlar tarafından “yan” bilgilerin nasıl kullanılabileceğini vurgulamaktadır.

Bu başarısızlıklar yol açtı diferansiyel gizlilik. Şirketler, verileri paylaşmak yerine, rastgele gürültü ile birlikte veri işleme sonuçlarını paylaşacaktı. Gürültü seviyesi, çıktının olası bir saldırgana bir hedef hakkında istatistiksel olarak anlamlı bir şey söylemeyeceği şekilde ayarlanır: Aynı çıktı, hedefli bir veritabanından veya hedef olmadan tamamen aynı veritabanından gelebilirdi. Paylaşılan veri işleme sonuçları, hiç kimse hakkında bilgi ifşa etmez, dolayısıyla herkes için mahremiyeti korur.

Farklı gizlilik uygulamak için, herhangi bir uygulama hatası gizlilik garantileri için felaket olabileceğinden, sıfırdan başlamamalıdır.

Farklı gizliliğin işlevsel hale getirilmesi ilk günlerde önemli bir zorluktu. İlk uygulamalar öncelikle Apple, Google veya Microsoft gibi büyük veri bilimi ve mühendislik ekiplerine sahip kuruluşların menşeiydi. Teknoloji olgunlaştıkça ve maliyeti azaldıkça, modern veri altyapılarına sahip tüm kuruluşlar gerçek hayattaki uygulamalarda farklı gizlilikten nasıl yararlanabilir?

Diferansiyel gizlilik, hem kümeler hem de satır düzeyindeki veriler için geçerlidir

Analist verilere erişemediğinde, farklı özel toplamlar üretmek için farklı gizlilik kullanmak yaygındır. Hassas verilere yalnızca gizliliği koruyan gürültülü sonuçlar veren bir API aracılığıyla erişilebilir. Bu API, basit SQL sorgularından karmaşık makine öğrenimi eğitim görevlerine kadar tüm veri kümesinde toplamalar gerçekleştirebilir.

Farklı gizlilik garantileriyle kişisel verilerden yararlanmak için tipik bir kurulum. Resim Kredisi: sarus

Bu kurulumun dezavantajlarından biri, veri maskeleme tekniklerinden farklı olarak, analistlerin artık “veriler için bir fikir edinmek” için bireysel kayıtları görmemeleridir. Bu sınırlamayı azaltmanın bir yolu, veri sahibinin orijinal veri kümesinin istatistiksel özelliklerini taklit eden sahte veriler ürettiği durumlarda, diferansiyel olarak özel sentetik veriler sağlamaktır.



genel-24

Bir yanıt yazın