30 Kasım 2023Haber odasıMakine Öğrenimi / E-posta Güvenliği

Google, çok dilli yeni bir metin vektörleştiricisini tanıttı RETVec (Esnek ve Verimli Metin Vektörleştiricinin kısaltması) tespit etmeye yardım et Gmail’deki spam ve kötü amaçlı e-postalar gibi potansiyel olarak zararlı içerikler.

“RETVec, ekleme, silme, yazım hataları, homoglifler, LEET ikamesi ve daha fazlası dahil olmak üzere karakter düzeyindeki manipülasyonlara karşı dayanıklı olacak şekilde eğitildi.” projenin açıklaması GitHub’da.

“RETVec modeli, tüm UTF-8 karakterlerini ve sözcüklerini verimli bir şekilde kodlayabilen yeni bir karakter kodlayıcının üzerinde eğitildi.”

Gmail ve YouTube gibi devasa platformlar kimlik avı saldırılarını, uygunsuz yorumları ve dolandırıcılıkları tespit etmek için metin sınıflandırma modellerine güvenirken, tehdit aktörlerinin bu savunma önlemlerini atlatmak için karşı stratejiler geliştirdiği biliniyor.

Homogliflerin kullanımından, anahtar kelime doldurmaya ve görünmez karakterlere kadar uzanan, muhalif metin manipülasyonlarına başvurdukları gözlemlendi.

RETVecKullanıma hazır 100’den fazla dilde çalışan, daha dayanıklı ve verimli sunucu tarafı ve cihaz içi metin sınıflandırıcıları oluşturmaya yardımcı olmanın yanı sıra daha sağlam ve verimli olmayı da hedefliyor.

Vektörizasyon, doğal dil işlemede bir metodolojidir (NLP) duygu analizi, metin sınıflandırması ve adlandırılmış varlık tanıma gibi daha ileri analizler gerçekleştirmek için kelime dağarcığından kelimeleri veya cümleleri karşılık gelen sayısal gösterimle eşlemek.

Google RETVec

“Yeni mimarisi nedeniyle RETVec, metin ön işlemesine ihtiyaç duymadan her dilde ve tüm UTF-8 karakterlerinde kullanıma hazır bir şekilde çalışıyor; bu da onu cihaz üzerinde, web ve büyük ölçekli metin sınıflandırması için ideal aday haline getiriyor dağıtımlar,” Google’dan Elie Bursztein ve Marina Zhang kayıt edilmiş.

Teknoloji devi, vektörleştiricinin Gmail’e entegrasyonunun spam tespit oranını temel değere göre %38 artırdığını ve yanlış pozitif oranını %19,4 azalttığını söyledi. Ayrıca Tensör İşleme Birimi’ni de düşürdü (TPU) modelin kullanımı %83 oranında arttı.

Bursztein ve Zhang, “RETVec ile eğitilen modeller, kompakt gösterimi nedeniyle daha hızlı çıkarım hızı sergiliyor. Daha küçük modellere sahip olmak, hesaplama maliyetlerini azaltır ve gecikmeyi azaltır; bu da büyük ölçekli uygulamalar ve cihaz üstü modeller için kritik öneme sahiptir.” diye ekledi.



siber-2