El 12 de junio de 2025, una serie de fallas simultáneas en las infraestructuras de Cloudflare y Google provocaron interrupciones generalizadas del servicio. Este incidente puso de manifiesto las vulnerabilidades inherentes a las dependencias modernas de la nube.
Las interrupciones impactaron una amplia gama de servicios críticos, desde sistemas de autenticación hasta plataformas de inteligencia artificial. Esto resalta la fragilidad de los ecosistemas interconectados de internet.
La interrupción de Cloudflare comenzó a las 17:52 UTC cuando el monitoreo interno detectó fallas en los registros de dispositivos para su servicio Zero Trust WARP.
La causa principal se remonta a una falla en la infraestructura de almacenamiento de un proveedor de nube externo, que admitía el servicio Workers KV de Cloudflare, un almacén distribuido de clave-valor utilizado para la configuración, autenticación y entrega de activos.
Los trabajadores de KV experimentaron una tasa de fallas en las solicitudes del 90,22 %, lo que provocó fallas en cascada en todos los servicios dependientes.
Los ingenieros iniciaron la mitigación a las 19:32 UTC eliminando la carga KV no crítica e implementando conmutación por error de emergencia en el almacenamiento R2 de Cloudflare.
Los servicios comenzaron a recuperarse a las 20:23 UTC y la restauración completa se logró a las 20:57 UTC.
Al mismo tiempo, Google Cloud sufrió una interrupción de 14 horas a partir de las 10:51 PDT (17:51 UTC) debido a una falla en el subsistema de administración de identidad y acceso (IAM).
La configuración incorrecta interrumpió los tokens de autenticación y las evaluaciones de políticas, lo que provocó:
- Gmail, Drive, Calendar, Meet: 100 % de indisponibilidad para usuarios que requieren una nueva autenticación.
- Búsqueda de Google, Lens, Discover: degradación parcial en la publicación de resultados.
- Plataformas de terceros: Spotify y Discord experimentaron interrupciones debido a dependencias de Google Cloud.
La mitigación comenzó a las 12:41 PDT con conmutaciones por error regionales, restaurando la mayoría de los servicios a las 15:16 PDT, aunque los problemas residuales persistieron en us-central1 hasta las 23:00 PDT.
Ambos incidentes expusieron riesgos críticos en la dependencia de proveedores y dependencias centralizadas:
- Arquitectura de Cloudflare: la gran dependencia de Workers KV, un servicio «sin núcleo» diseñado para la redundancia, falló debido a un único punto de falla externo.
- Los ingenieros están acelerando la migración al almacenamiento R2 e implementando protocolos de «degradación elegante» para servicios críticos como Access.
- Desglose de IAM de Google: una actualización de la política de IAM mal configurada eludió las medidas de seguridad, lo que provocó fallas de autenticación en cascada en más de 60 regiones.
Aunque Cloudflare y Google afirmaron que las recientes interrupciones no estaban directamente conectadas, su ocurrencia simultánea sí interrumpió las operaciones de millones de usuarios a nivel global.
Ambas compañías se han comprometido a realizar análisis post-mortem exhaustivos. Cloudflare planea diversificar su infraestructura, mientras que Google revisará sus salvaguardas de implementación de IAM.
Estos incidentes subrayan la importancia crítica de implementar redundancia entre nubes y monitoreo de dependencia en tiempo real para la infraestructura esencial de internet.