
Mejoras en el Rendimiento
La actualización más reciente de LiteRT ofrece mejoras significativas en la aceleración del hardware y ahora forma parte de la pila de producción de LiteRT, accesible para todos los desarrolladores. LiteRT maximiza el despliegue en una variedad de dispositivos y sistemas operativos, logrando niveles de rendimiento muy superiores a lo que TFLite podía ofrecer, aprovechando las capacidades contemporáneas de GPU (Unidades de Procesamiento Gráfico) y NPU (Unidades de Procesamiento Neuronal).
Aceleración GPU Multiplataforma
Uno de los aspectos más destacados de LiteRT es su soporte para GPU de alto rendimiento en Android, iOS, macOS, Windows, Linux y la Web. LiteRT presenta ML Drift, un motor GPU de próxima generación que admite OpenCL, OpenGL, Metal y WebGPU, en lugar de limitar a los desarrolladores a la inferencia con CPU. Este método reduce considerablemente la latencia y mejora la capacidad de respuesta general al permitir que los modelos operen de manera efectiva en diversos hardware.
Según los benchmarks, el rendimiento de GPU de LiteRT es 1.4 veces más rápido, en promedio, que el antiguo delegado de GPU de TFLite. Características como la ejecución asíncrona y la interoperabilidad de buffers de cero-copia reducen aún más el desperdicio de procesamiento. Esto hace que aplicaciones en tiempo real, como el reconocimiento de voz y la segmentación de fondo, sean más rápidas y receptivas que antes.
Integración Unificada de NPU
Las NPU están adquiriendo una importancia creciente al proporcionar inferencia de IA rápida y de bajo consumo energético, mientras que las GPU ofrecen una aceleración general superior. Anteriormente, los desarrolladores lidiaban con un entorno fragmentado de flujos de trabajo incompatibles y SDKs específicos de proveedores. LiteRT simplifica esta complejidad al ofrecer un enfoque de implementación NPU simplificado y consistente que abstrae los detalles de bajo nivel.
Los desarrolladores pueden optar por la compilación en el dispositivo o crear modelos de manera anticipada (AOT) para objetivos de SoC específicos. La delegación de hardware es gestionada automáticamente por el marco, proporcionando un respaldo confiable a la CPU o GPU si es necesario. Las integraciones tempranas de LiteRT con empresas de silicio reconocidas como MediaTek y Qualcomm ya muestran aceleraciones de NPU de hasta 100 veces en comparación con la CPU y 10 veces en comparación con la GPU.
Soporte Avanzado para GenAI
A medida que los modelos generativos aumentan en popularidad, mantenerlos funcionando de manera eficiente en dispositivos representa un desafío. LiteRT aborda esto con una pila tecnológica integrada que incluye:
- LiteRT Torch Generative API: Un módulo de Python para crear y convertir modelos basados en transformadores.
- LiteRT-LM: Una capa construida sobre LiteRT para gestionar la orquestación de modelos grandes.
- LiteRT Converter & Runtime: El motor que impulsa la conversión y ejecución optimizada a través del hardware.
En pruebas con modelos de código abierto como Gemma 3 1B, LiteRT mostró un rendimiento 3 veces más rápido en CPU, 7 veces más rápido en la decodificación de GPU y 19 veces más rápido en el rendimiento de prellenado de GPU respecto a alternativas como llama.cpp, con ganancias adicionales en rendimiento de NPU.
Soporte para Marcos de ML Populares
Con LiteRT, los desarrolladores pueden integrar sin problemas modelos de sus marcos de ML actuales, como PyTorch, TensorFlow y JAX, en el entorno del dispositivo. Los modelos de PyTorch pueden convertirse directamente en el formato de archivo del modelo TensorFlow Lite a través de la biblioteca LiteRT Torch, mientras que los modelos de TensorFlow y JAX pueden ser incorporados mediante puentes conocidos. Esta adaptabilidad permite que la investigación y la experimentación en IA se traduzcan rápidamente en implementaciones de producción.
Confiabilidad y Compatibilidad
A pesar de sus características avanzadas, LiteRT se compromete a proporcionar la portabilidad y confiabilidad que los desarrolladores exigen. Continúa expandiendo el probado formato de modelo de TensorFlow Lite, garantizando interoperabilidad con navegadores web, dispositivos IoT diversos, y sistemas operativos como Android, iOS, macOS, Windows y Linux. Los desarrolladores tienen la opción entre flujos de trabajo antiguos y estables o una interfaz moderna optimizada para la aceleración del hardware.
Conclusión
LiteRT representa un avance significativo en la IA en el dispositivo. Google ha desarrollado una solución universal que permite experiencias de IA de próxima generación directamente en los dispositivos de los usuarios, combinando la aceleración de GPU y NPU, simplificando la implementación de modelos y soportando una amplia gama de marcos y plataformas. Con LiteRT, la potencia de la IA está al alcance, ya sea que estés desarrollando herramientas de IA generativa, interfaces de voz o aplicaciones de visión en tiempo real.
