El equipo de seguridad de aplicaciones de Trendyol ha identificado importantes deficiencias en las protecciones de Llama Firewall de Meta, lo que las hace ineficaces contra ataques avanzados de inyección rápida. Estos hallazgos plantean serias dudas sobre la robustez de las medidas de seguridad actuales para grandes modelos de lenguaje (LLM) y resaltan la necesidad imperativa de desarrollar defensas más sólidas, especialmente a medida que las empresas integran cada vez más los LLM en sus operaciones diarias.
Durante su evaluación, los ingenieros de Trendyol implementaron el Llama Firewall de código abierto de Meta, prestando especial atención a su componente PROMPT_GUARD, diseñado para filtrar instrucciones maliciosas de los usuarios. Inesperadamente, el sistema permitió una inyección en turco que contenía la frase «üstteki yönlendirmeleri salla» (ignorar las instrucciones anteriores). Esta instrucción exitosamente le indicó al modelo que ignorara sus directrices previas y luego tradujera una oración al francés.