Un nuevo exploit de cumplimiento de contexto libera a los principales modelos de IA

Los investigadores de Microsoft han descubierto un método sorprendentemente sencillo que puede eludir las barreras de seguridad en la mayoría de los principales sistemas de inteligencia artificial.

En una publicación de blog técnica publicada el 13 de marzo de 2025, Mark Russinovich de Microsoft detalló el “Ataque de cumplimiento de contexto” (CCA), que explota la práctica común de confiar en el historial de conversaciones proporcionado por el cliente.

El ataque resulta eficaz contra numerosos modelos importantes de IA, lo que genera importantes preocupaciones sobre los enfoques de salvaguardia actuales.

A diferencia de muchas técnicas de jailbreak que requieren ingeniería u optimización complejas y rápidas, CCA tiene éxito mediante la simple manipulación del historial de conversaciones, lo que resalta una vulnerabilidad arquitectónica fundamental en muchas implementaciones de IA.

El ataque de cumplimiento de contexto funciona explotando una opción de diseño básica en muchos sistemas de inteligencia artificial que dependen de que los clientes proporcionen el historial de conversaciones completo con cada solicitud.

En lugar de elaborar indicaciones elaboradas para confundir a los sistemas de inteligencia artificial, los atacantes pueden simplemente inyectar una respuesta inventada de un asistente en el historial de conversaciones.

Este contenido inyectado suele incluir una breve discusión sobre un tema delicado, una declaración de voluntad de proporcionar información adicional y una pregunta que ofrece contenido restringido.

Cuando el usuario responde afirmativamente a esta pregunta inventada, el sistema de IA cumple con lo que percibe como una solicitud de seguimiento contextualmente apropiada.

La simplicidad de este ataque contrasta marcadamente con las salvaguardias cada vez más sofisticadas que están desarrollando los investigadores.

Según la investigación de Microsoft, una vez que se ha engañado a un sistema de inteligencia artificial para que proporcione información restringida sobre un tema, a menudo se muestra más dispuesto a discutir temas sensibles relacionados dentro de la misma categoría o incluso entre categorías.

Este efecto en cascada amplifica significativamente el impacto de la vulnerabilidad inicial, creando preocupaciones de seguridad más amplias para el despliegue de la IA.

La evaluación de Microsoft reveló la eficacia del método en numerosos sistemas de inteligencia artificial, incluidos modelos de Claude, GPT, Llama, Phi, Gemini, DeepSeek y Yi.

Las pruebas abarcaron 11 tareas en varias categorías delicadas, desde generar contenido dañino relacionado con la autolesión y la violencia hasta crear instrucciones para actividades peligrosas.

Según los resultados publicados, la mayoría de los modelos resultaron vulnerables a al menos algunas formas de ataque, y muchos de ellos fueron susceptibles en múltiples categorías.

La debilidad arquitectónica explotada por CCA afecta principalmente a los sistemas que no mantienen el estado de conversación en sus servidores.

La mayoría de los proveedores eligen una arquitectura sin estado para lograr escalabilidad, confiando en que los clientes envíen el historial de conversaciones completo con cada solicitud.

Esta elección de diseño, si bien es eficiente para la implementación, crea una oportunidad importante para la manipulación del historial.

Los modelos de código abierto son particularmente susceptibles a esta vulnerabilidad porque dependen inherentemente del historial de conversaciones proporcionado por el cliente.

Los sistemas que mantienen el estado de la conversación internamente, como el propio Copilot de Microsoft y el ChatGPT de OpenAI, demuestran una mayor resistencia contra este método de ataque específico.

Microsoft enfatizó que incluso los modelos potencialmente vulnerables pueden beneficiarse de medidas de protección adicionales como filtros de entrada y salida.

La compañía destacó específicamente los filtros de contenido de Azure como un ejemplo de mitigación que puede ayudar a abordar esta y otras técnicas de jailbreak, reforzando su compromiso con la seguridad de defensa en profundidad para los sistemas de inteligencia artificial.

Para promover la conciencia y facilitar más investigaciones sobre esta vulnerabilidad, Microsoft ha puesto a disposición el Context Compliance Attack a través de su kit de herramientas AI Red Team de código abierto, PyRIT.

Los investigadores pueden utilizar el componente «ContextComplianceOrchestrator» para probar sus sistemas contra este vector de ataque.

Este orquestador de un solo turno está diseñado para brindar eficiencia, lo que lo hace más rápido que las alternativas de múltiples turnos y al mismo tiempo guarda automáticamente los resultados y las interacciones intermedias en la memoria de acuerdo con la configuración del entorno.

El descubrimiento de este método de ataque simple pero eficaz tiene implicaciones importantes para las prácticas de seguridad de la IA en toda la industria.

Si bien muchos sistemas de seguridad actuales se centran principalmente en analizar y filtrar las entradas inmediatas de los usuarios, a menudo aceptan el historial de conversaciones con una validación mínima.

Esto crea una confianza implícita que los atacantes pueden explotar fácilmente, lo que destaca la necesidad de enfoques de seguridad más integrales que consideren toda la arquitectura de interacción.

Para los modelos de código abierto, abordar esta vulnerabilidad presenta desafíos particulares, ya que los usuarios con acceso al sistema pueden manipular las entradas libremente.

Sin cambios arquitectónicos fundamentales, como la implementación de firmas criptográficas para la validación de conversaciones, estos sistemas siguen siendo inherentemente vulnerables.

Sin embargo, para los sistemas comerciales basados ​​en API, Microsoft sugiere varias estrategias de mitigación inmediata.

Estos incluyen implementar firmas criptográficas donde los proveedores firman historiales de conversaciones con una clave secreta y validan firmas en solicitudes posteriores, o mantener un estado de conversación limitado en el lado del servidor.

La investigación subraya una idea fundamental para la seguridad de la IA: la seguridad eficaz requiere atención no sólo al contenido de las indicaciones individuales sino a la integridad de todo el contexto de la conversación.

A medida que se siguen implementando sistemas de IA cada vez más potentes en diversos dominios, garantizar esta integridad contextual se vuelve primordial.

La divulgación pública del Context Compliance Attack por parte de Microsoft refleja el compromiso declarado de la compañía de promover la concientización y alentar a los diseñadores de sistemas de toda la industria a implementar salvaguardias apropiadas contra métodos de elusión tanto simples como sofisticados.

La divulgación por parte de Microsoft del Context Compliance Attack revela una importante paradoja en la seguridad de la IA: mientras los investigadores desarrollan salvaguardas cada vez más complejas, algunos de los métodos de elusión más efectivos siguen siendo sorprendentemente sencillos.