La fuga de datos de DeepSeek expone 12.000 claves API y contraseñas codificadas

Un análisis exhaustivo del conjunto de datos Common Crawl, una piedra angular de los datos de entrenamiento para grandes modelos de lenguaje (LLM) como DeepSeek, ha descubierto 11,908 claves API activas, contraseñas y credenciales integradas en páginas web de acceso público.

Los secretos filtrados, que se autentican exitosamente con servicios que van desde AWS hasta Slack y Mailchimp, resaltan los riesgos sistémicos en los procesos de desarrollo de IA a medida que los modelos aprenden inadvertidamente prácticas de codificación inseguras a partir de datos expuestos.

Los investigadores de Truffle Security rastrearon la causa raíz hasta la codificación generalizada de credenciales en 2,76 millones de páginas web archivadas en la instantánea Common Crawl de diciembre de 2024, lo que plantea preguntas urgentes sobre las salvaguardias para el código generado por IA.

El conjunto de datos Common Crawl, un repositorio de 400 terabytes de contenido web extraído de 2,67 mil millones de páginas, sirve como material de capacitación fundamental para DeepSeek y otros LLM líderes.

Cuando Truffle Security escaneó este corpus utilizando su herramienta de código abierto TruffleHog, descubrió no solo miles de credenciales válidas sino también patrones de reutilización preocupantes.

Por ejemplo, una única clave API de WalkScore apareció 57.029 veces en 1.871 subdominios, mientras que una página web contenía 17 webhooks únicos de Slack codificados en JavaScript frontal.

Las claves API de Mailchimp dominaron la filtración, con 1500 claves únicas que permitieron posibles campañas de phishing y robo de datos.

Infraestructura a escala: escaneo de 90.000 archivos web

Para procesar los 90.000 archivos WARC (Web ARChive) de Common Crawl, Truffle Security implementó un sistema distribuido en 20 servidores de alto rendimiento.

Cada nodo descargó archivos comprimidos de 4 GB, los dividió en registros web individuales y ejecutó TruffleHog para detectar y verificar secretos activos.

Para cuantificar los riesgos del mundo real, el equipo dio prioridad a las credenciales verificadas: claves que se autenticaban activamente en sus respectivos servicios.

En particular, el 63 % de los secretos se reutilizaron en varios sitios, lo que amplificó el potencial de vulneración.

Esta hazaña técnica reveló casos sorprendentes como una clave raíz de AWS incrustada en HTML frontal para la autenticación básica de S3, una práctica sin ningún beneficio funcional pero con graves implicaciones de seguridad.

Los investigadores también identificaron empresas de software que reciclaban claves API en los sitios de los clientes, exponiendo sin darse cuenta las listas de clientes.

Si bien los datos de Common Crawl reflejan fallas de seguridad de Internet más amplias, la integración de estos ejemplos en los conjuntos de capacitación de LLM crea un ciclo de retroalimentación.

Los modelos no pueden distinguir entre claves activas y ejemplos de marcadores de posición durante el entrenamiento, lo que normaliza patrones inseguros como la codificación de credenciales.

Este problema llamó la atención el mes pasado cuando los investigadores observaron que los LLM instruían repetidamente a los desarrolladores a incorporar secretos directamente en el código, una práctica que se puede atribuir a ejemplos de capacitación defectuosos.

La brecha de verificación en el código generado por IA

Los hallazgos de Truffle Security subrayan un punto ciego crítico: incluso si el 99% de los secretos detectados no fueran válidos, su gran volumen de datos de capacitación sesga los resultados de LLM hacia recomendaciones inseguras.

Por ejemplo, un modelo expuesto a miles de claves API de Mailchimp de front-end puede priorizar la conveniencia sobre la seguridad, ignorando las variables de entorno de backend.

Este problema persiste en todos los principales conjuntos de datos de formación de LLM derivados de repositorios de códigos públicos y contenido web.

Respuestas de la industria y estrategias de mitigación

En respuesta, Truffle Security aboga por salvaguardias de varios niveles. Los desarrolladores que utilizan asistentes de codificación de IA pueden implementar instrucciones de copiloto o reglas de cursor para inyectar barreras de seguridad en las indicaciones de LLM.

Por ejemplo, una regla que especifica «Nunca sugerir credenciales codificadas» dirige los modelos hacia alternativas seguras.

A nivel industrial, los investigadores proponen técnicas como la IA constitucional para incorporar restricciones éticas directamente en el comportamiento del modelo, reduciendo los resultados dañinos.

Sin embargo, esto requiere la colaboración entre los desarrolladores de IA y los expertos en ciberseguridad para auditar los datos de capacitación e implementar procesos de redacción sólidos.

Este incidente subraya la necesidad de medidas proactivas:

  • Amplíe el escaneo secreto a conjuntos de datos públicos como Common Crawl y GitHub.
  • Reevaluar los canales de capacitación de IA para filtrar o anonimizar datos confidenciales.
  • Mejorar la educación de los desarrolladores sobre la gestión segura de credenciales.

A medida que los LLM como DeepSeek se vuelven parte integral del desarrollo de software, proteger sus ecosistemas de capacitación no es opcional: es existencial.

Las 12.000 claves filtradas son simplemente un síntoma de una dolencia más profunda: nuestra incapacidad colectiva para desinfectar los datos que darán forma a la IA del mañana.