Modelos de IA maliciosos en Hugging Face abren puertas traseras de los usuarios

En la plataforma Hugging Face se han encontrado al menos 100 casos de modelos de IA maliciosos, algunos de los cuales pueden ejecutar código en la máquina de la víctima, proporcionando a los atacantes una puerta trasera persistente.

Hugging Face es una empresa tecnológica especializada en inteligencia artificial (IA), procesamiento del lenguaje natural (PLN) y aprendizaje automático (AM), que ofrece una plataforma en la que las comunidades pueden colaborar y compartir modelos, conjuntos de datos y aplicaciones completas.

El equipo de seguridad de JFrog descubrió que alrededor de 100 modelos alojados en la plataforma contenían funcionalidades maliciosas, lo que suponía un riesgo significativo de filtración de datos y ataques de espionaje.

Esto ocurre a pesar de las medidas de seguridad de Hugging Face, que incluyen el escaneado en busca de malware, pepinillos y secretos, y el escrutinio de la funcionalidad de los modelos en busca de comportamientos como la deserialización peligrosa.

Achieving code execution via an AI model

Modelos AI ML maliciosos

JFrog desarrolló y desplegó un sistema de análisis avanzado para examinar modelos Keras PyTorch y Tensorflow alojados en Hugging Face, y encontró alrededor de 100 con algún tipo de funcionalidad maliciosa.

«Es esencial destacar que cuando nos referimos a «modelos maliciosos», nos referimos específicamente a aquellos que alojan cargas útiles reales y dañinas», se lee en el informe de JFrog.

«Este recuento excluye los falsos positivos, asegurando una representación auténtica de la distribución del esfuerzo para producir modelos maliciosos para PyTorch y Tensorflow en Hugging Face».

Una plantilla PyTorch descargada recientemente por un usuario llamado «baller423», y que desde entonces ha sido eliminada de HuggingFace, contenía un payload que le permitía establecer un shell inverso a un host especificado (210.117.212.93).

La carga maliciosa utilizaba el método «reduce» del módulo pickle de Python para ejecutar código arbitrario al cargar un archivo de plantilla PyTorch, escapando así a la detección al incrustar el código malicioso en el proceso de serialización de confianza.

JFrog encontró la misma carga útil conectándose a otras direcciones IP en instancias separadas, con pruebas que sugieren la posibilidad de que sus operadores fueran investigadores de inteligencia artificial en lugar de hackers. Sin embargo, su experimentación seguía siendo arriesgada e inapropiada.

Los analistas desplegaron un HoneyPot para atraer y analizar la actividad con el fin de determinar las verdaderas intenciones de los operadores, pero fueron incapaces de capturar ningún comando durante el periodo de conectividad establecido (un día).

Según JFrog, algunas de las descargas maliciosas podrían formar parte de una investigación de seguridad para burlar las medidas de seguridad de Hugging Face y cobrar recompensas por errores, pero dado que los modelos peligrosos están a disposición del público, el riesgo es real y no debe subestimarse.

Los modelos de inteligencia artificial pueden plantear importantes riesgos de seguridad, y las partes interesadas y los desarrolladores de tecnología no los han apreciado ni debatido con la debida diligencia.

Los hallazgos de JFrog ponen de relieve este problema y exigen una mayor vigilancia y medidas proactivas para proteger el ecosistema de los actores maliciosos.