Google presenta RETVec: la nueva defensa de Gmail contra el spam y los correos electrónicos maliciosos


30 de noviembre de 2023Sala de redacciónAprendizaje automático/seguridad del correo electrónico

Google ha revelado un nuevo vectorizador de texto multilingüe llamado RETVec (abreviatura de Vectorizador de texto resistente y eficiente) para ayudar a detectar contenido potencialmente dañino como spam y correos electrónicos maliciosos en Gmail.

«RETVec está entrenado para ser resistente a manipulaciones a nivel de caracteres, incluidas inserción, eliminación, errores tipográficos, homoglifos, sustitución LEET y más», según el descripción del proyecto en GitHub.

«El modelo RETVec está entrenado sobre un codificador de caracteres novedoso que puede codificar todos los caracteres y palabras UTF-8 de manera eficiente».

La seguridad cibernética

Si bien grandes plataformas como Gmail y YouTube dependen de modelos de clasificación de texto para detectar ataques de phishing, comentarios inapropiados y estafas, se sabe que los actores de amenazas idean contraestrategias para eludir estas medidas de defensa.

Se ha observado que recurren a manipulaciones de texto adversas, que van desde el uso de homoglifos hasta el relleno de palabras clave y caracteres invisibles.

RETVecque funciona en más de 100 idiomas de forma inmediata, tiene como objetivo ayudar a crear clasificadores de texto en el lado del servidor y en el dispositivo más resistentes y eficientes, a la vez que es más sólido y eficiente.

La vectorización es una metodología en el procesamiento del lenguaje natural (PNL) para asignar palabras o frases del vocabulario a una representación numérica correspondiente para realizar análisis adicionales, como análisis de sentimientos, clasificación de texto y reconocimiento de entidades nombradas.

Google RETVec

«Debido a su novedosa arquitectura, RETVec funciona de inmediato en todos los idiomas y en todos los caracteres UTF-8 sin necesidad de preprocesamiento de texto, lo que lo convierte en el candidato ideal para la clasificación de texto en dispositivos, web y a gran escala. implementaciones», Elie Bursztein y Marina Zhang de Google anotado.

La seguridad cibernética

El gigante tecnológico dijo que la integración del vectorizador a Gmail mejoró la tasa de detección de spam con respecto a la base en un 38% y redujo la tasa de falsos positivos en un 19,4%. También bajó la Unidad de Procesamiento Tensorial (TPU) uso del modelo en un 83%.

«Los modelos entrenados con RETVec exhiben una velocidad de inferencia más rápida debido a su representación compacta. Tener modelos más pequeños reduce los costos computacionales y disminuye la latencia, lo cual es fundamental para aplicaciones a gran escala y modelos en el dispositivo», agregaron Bursztein y Zhang.

¿Encontró interesante este artículo? Siga con nosotros Gorjeo y LinkedIn para leer más contenido exclusivo que publicamos.





ttn-es-57