miércoles, mayo 11, 2016

Federación de Datacenters

Como nos decían nuestras abuelas, la fuerza está en la unión de las pequeñas cosas... Y esto es lo que se está aproximando al mundo del Datacenter, como reacción al inexorable crecimiento de necesidad de computación y almacenamiento que hay detrás nuestro estilo de vida digital y el incipiente #IoT (Internet de las cosas). Gartner estima que Los crecimientos de gasto en IT para posibilitar IoT crecerán con dos dígitos hasta culminar con más de ¢235B USD en 2020. Sé que estas cifras no nos dicen mucho, y que son poco significativas en nuestro quehacer diario, pero sí que podemos vislumbrar algunas tendencias que los proveedores de servicios Cloud y Datacenter deberían tener en cuenta para un futuro a la vuelta de la esquina... 

El primero es la necesidad de interconectar más Datacenters. ¿Por qué? Pues sencillo: muchas aplicaciones de IoT son sensibles a la distancia, es decir, a la latencia de las comunicaciones. Si un coche tiene parte de su capacidad computacional en la nube, la velocidad de subida de los datos que recojan sus sensores y la respuesta que indique parte de su inteligencia "Cloud" es crítica para la respuesta y la seguridad de los pasajeros. Y la latencia, como decía, juega un papel CLAVE. Por ello, no bastará sólo en alojar la plataforma de gestión en un buen Datacenter, sino también que ésta vaya cambiando su ubicación, acercándose al cliente para reducir el tiempo de respuesta. Es obvio que las redes de transporte también introducirán retardo y criticidad a determinadas aplicaciones, por ello, se deberá rediseñar el sistema de transporte de los datos desde el sensor a la plataforma (5G ayudará mucho a ello y es uno de sus "drivers" o motivos de desarrollo global).
Otro motivo para federar Datacenters es la necesidad de disponer de gran capacidad de almacenamiento y computación cercana al usuario, por la misma razón anterior: #IoT precisará en sus aplicaciones, no sólo de una baja latencia, sino de una respuesta casi inmediata de los sistemas. Y para ello, deben estar cerca y con capacidad casi infinita distribuida.
Es obvio que la alta disponibilidad de las plataformas hará que éstas estén redundadas para garantizar una altísima resiliencia: nadie entenderá que dos coches choquen por un corte de conectividad en un Datacenter, o que un paciente fallezca porque la aplicación no ha lanzado las alarmas pertinentes por un problema en el contenedor en el que reside la aplicación. 
Finalmente, la seguridad de todo el sistema o plataforma es un punto de altísima criticidad: nadie sabe cómo asegurar un sistema en el que hay miles de puntos de entrada (datos) que fluyen a través de una red pública (obviamente encriptados) a una federación de Datacenters que alojan las aplicaciones. Es un problema de ingeniería fascinante, pero que debe solucionarse para garantizar el despliegue de miles de aplicaciones en todo el planeta que nos harán la vida más fácil.

Conclusión: La Federación de Datacenters (un nombre un poco "StarWars", por cierto) es necesaria, y seguramente una tremenda oportunidad de negocio para Service Providers pequeño-medianos. Veremos cómo evoluciona, pero es seguro que jugará un papel fundamental en este mundo tan cambiante en el que estamos...

lunes, mayo 02, 2016

Datacenter Tier-IV y 2N+1? Aclarando conceptos

Cuando presentas un Datacenter como un lugar para alojar datos críticos de empresa, la primera pregunta es siempre... ¿Qué certificación tiene?¿Es un tier-II, III o IV? La pregunta es lógica, ya que en el fondo, se quiere conocer su disponibilidad de servicio anual (Tier-III es de 99,982% o 3 nueves, mientras que un tier-IV es de 99,991% o 4 nueves). La disponibilidad tiene una componente que controlas, que el tiempo en el que un sistema no presta el servicio para el que se diseñó porque está "en mantenimiento". Este estado no forma parte de las características de un tier-III o IV, y es una de las diferencias fundamentales con los tier-I o II, no hay "maintenance downtime".  
Antes de seguir, es interesante conocer lo que implica añadir "nueves" al porcentaje de disponibilidad. Si "dos nueves" son 3 días, 15 horas, 40 minutos de interrupción anual, "tres nueves" (tier-III) son 8 horas, 46 minutos, "cuatro nueves" (tier-IV) son 52 minutos, 36 segundos, "cinco nueves" 5 minutos, 15 segundos o "seis nueves" tan sólo 32 segundos anuales de no disponibilidad.
Por otro lado, ¿Qué significa disponer de redundancia "N", "N+1", "2N+1", etc.? N es el número de elementos que proporcionan servicio y capacidad. Lo entenderemos mejor con un ejemplo: un almacén de helados. Ahí N sería el número de neveras en los que se almacenan cajas de helados. Tenemos 50 neveras de 20 cajas de capacidad, es decir, capacidad máxima = 1.000 cajas, y N = 50. Si se estropea una nevera, tendremos que trasladar las cajas a otra que no esté llena, pero si no tenemos espacio vacío (100% de capacidad), se estropearán. Así, introducimos en el almacén una nevera vacía como estrategia (N+1) ante esa eventualidad (nevera que falla). También podríamos disponer de toda la infraestructura redundada al 100% (2N), o incluso, la máxima redundancia, 2N+1. Como se ve, a mayor redundancia, más coste (más neveras) ya que hemos ido pasando de 50 neveras (N) a 51 (N+1), de ahí a 100 (2N) o 101 (2N+1). Evidentemente la ocupación es otra variable en el diseño de la disponibilidad del servicio, ya que la capacidad real la dará lo que estimemos prudente ocupar, si el 100% de la capacidad total o la que se diseñe..
Dicho esto, la clasificación de un Datacenter según el Uptime Institute es como sigue:

Características Tier I Tier II Tier III Tier IV
Redundancia N N+1 N+1 2N+1
Número líneas electricas 1 1 1 x Activo / 1 x Pasivo 2 Activas
Personal Permanente Ninguno 1 solo turno 1 por cada turno 24 x 7 x 365
Puntos únicos de fallo Muchos Muchos Algunos Sólo por incendio o fallo humano
Tolerancia a fallos no planificados No No No Si
Interrupción servicio por mantenimiento anual 2 de mas de 12 horas 1.5 de más de 12 horas 0 0
Interrupción anual de servicio 2 cortes de más de 4 horas 1 corte de más de 4 horas 0 cortes de más de 4 horas 0 cortes de más de 4 horas
Tiempo anual de servicio de mantenimiento 28.8 horas 22 horas 1.6 horas 0.8 horas
Disponibilidad del Servicio 99,671% 99,749% 99,982% 99,991%