Si el tiempo de actividad del servidor es el santo grial de la TI, la tecnología y las personas deben desempeñar un papel importante en la búsqueda.
La disponibilidad constante y en funcionamiento del centro de datos es un requisito fundamental de cualquier organización. Sin embargo, la búsqueda de TI de disponibilidad de «tono de marcado» a lo largo de los años nunca se ha materializado del todo.
Quizás estemos más cerca de lograr esta visión, gracias a arquitecturas técnicas más nuevas como la virtualización y la computación en la nube. Pero las nuevas tecnologías solo llegan hasta cierto punto. Si las organizaciones realmente quieren mejorar la disponibilidad de su centro de datos, deben centrarse en tres principios básicos: automatización, modularidad y redundancia.
Dos, cuatro, seis, ocho: ¿Qué podemos automatizar?
Si el objetivo es el tiempo de actividad, la primera área que debe abordarse no es el equipo basado en silicio que conforma el centro de datos empresarial, sino las formas de vida basadas en carbono que nominalmente lo mantienen y actualizan.
Desafortunadamente, las personas son la principal causa del tiempo de inactividad del centro de datos. Escritura deficiente, aplicación incorrecta de parches, desconexión del equipo equivocado; si necesita que se haga algo completamente incorrecto, contrate a un humano.
Afortunadamente, mucho de lo que se necesita para mantener los sistemas en funcionamiento y disponibles en estos días se puede hacer en un entorno sin luces. Ahora es posible automatizar parches, actualizaciones y cualquier cantidad de otras tareas de software, como el aprovisionamiento y desaprovisionamiento de aplicaciones.
Muchos problemas se deben a los intentos de aplicar un parche o actualizar a un sistema no elegible, como cuando no hay suficiente almacenamiento en un servidor o cuando se requiere un controlador de dispositivo específico pero no está disponible en la máquina. Las buenas herramientas deberían identificar automáticamente estos problemas antes de intentar cualquier acción. Deben solucionarlos automáticamente o enviar una excepción a un administrador y omitir la acción hasta que un humano se haya ocupado del problema.
Las herramientas de automatización también deberían poder monitorear e informar sobre el estado no solo de las aplicaciones individuales, sino de todas las aplicaciones que respaldan los procesos empresariales. Es una pérdida de tiempo iniciar un proceso si la última parte del proceso no se puede completar porque una aplicación posterior o una pieza de hardware ha fallado. Es mejor identificar cualquier problema temprano y luego buscar remediarlo en tiempo real.
Esto puede implicar mover una máquina virtual (VM) de un entorno físico a otro, junto con todas sus dependencias en torno al almacenamiento y las redes. Una vez más, esto se puede hacer de forma rápida y eficaz mediante la automatización. Al detectar problemas en una etapa temprana, el movimiento se puede realizar en tiempo real y los sistemas se pueden cambiar sin ningún cambio perceptible para los trabajadores. Este enfoque proactivo tiene mucho más a su favor que el de una respuesta reactiva estándar. Esperar a que los usuarios llamen por teléfono al servicio de asistencia técnica y luego enviar personas a un centro de datos para abordar un problema no es bueno para una organización moderna.
Nuevamente, evite la intervención humana tanto como sea posible. Las máquinas rara vez hacen algo mal: realizan la misma actividad una y otra vez sin desviarse de las reglas que se les proporcionan. Si la regla se programa correctamente la primera vez, los servidores continuarán haciéndolo correctamente a partir de ahí, una y otra vez. Un miembro del personal puede haber hecho la misma tarea correctamente 99 veces y luego tener un día libre o simplemente un momento libre en el 100th ocasión. Utilice la automatización y haga que las personas se concentren en codificar correctamente esa regla inicial.
Modular, no monolítico
En un entorno virtualizado basado en la nube, en realidad es bastante poco probable que la falla de una pieza individual de hardware provoque que un centro de datos tenga una disponibilidad general apreciablemente menor. Las aplicaciones más antiguas son generalmente el problema. Tener aplicaciones grandes y monolíticas causa dificultades incluso dentro del mundo de los entornos virtualizados ultrarrápidos. El aprovisionamiento y la puesta en marcha de una nueva máquina virtual que contiene una pila completa, desde el sistema operativo hasta una instancia completa de SAP ERP u Oracle E-Business Suite, llevará tiempo debido a la escala y la complejidad.
Avanzar hacia un enfoque de aplicación compuesta realmente puede ayudar aquí. El primer trabajo es tomar el proceso empresarial, dividirlo en un conjunto de tareas y luego ver qué capacidades técnicas se requieren para facilitar cada una de estas tareas. Al encontrar las funciones técnicas correctas como pequeñas piezas de capacidad y juntarlas según sea necesario, puede obtener un mayor nivel de flexibilidad. Los procesos se pueden cambiar y solo las tareas que se ven afectadas requieren nuevos componentes técnicos. Además, obtiene una disponibilidad mucho mayor y un tiempo de actividad general del sistema mucho mayor.
Considere un proceso que consta de cinco tareas. Cada una de estas tareas se ve facilitada por una función técnica diferente. Una de las funciones falla, por el motivo que sea. La misma plataforma técnica se puede poner en marcha mucho más rápido que si esa misma función fallara como parte de una aplicación monolítica, donde toda la pila tendría que reaprovisionarse.
De hecho, dado que las otras cuatro funciones aún pueden ejecutarse, las actividades se pueden realizar mientras se repara el componente defectuoso. Suponiendo que la organización está almacenando y reenviando transacciones correctamente, las personas aún pueden llevar a cabo sus propias partes del proceso general, incluso durante una interrupción prolongada.
Duplica la redundancia
Aunque he dicho que el hardware no es el problema real, no lo tome como una excusa para no proteger el centro de datos contra fallas del equipo. La ingeniería para la disponibilidad del centro de datos requiere cierto grado de redundancia de equipos. Esto se aplica no solo a los servidores y el almacenamiento, sino también a la red y las instalaciones. Las redes virtualizadas permiten la reasignación dinámica de conexiones de red en caso de que falle una tarjeta de interfaz de red o se congestione una ruta específica. Los enfriadores modulares, las fuentes de alimentación ininterrumpida y los generadores auxiliares permiten que las instalaciones sobrevivan a las fallas de los equipos.
Para un servidor básico u otro tiempo de actividad de hardware, opte por un equipo más de lo necesario (N + 1). Para niveles más altos de tiempo de actividad, opte por más elementos de equipo redundante (N + M). Para obtener los niveles más altos de tiempo de actividad de la plataforma, considere la duplicación de larga distancia.
Las empresas que no pueden tolerar ningún tiempo de inactividad del centro de datos necesitan una duplicación completa en tiempo real de las máquinas virtuales en vivo, el almacenamiento y las dependencias de la red virtual a una distancia adecuada. La redundancia debe integrarse en la forma en que las dos instalaciones están conectadas en red, a través de múltiples conexiones de red de área inalámbrica operadas por diferentes proveedores. Obviamente, los costos son bastante prohibitivos, así que asegúrese de que esto sea realmente necesario.
En muchos casos, la empresa estará realmente bien atendida por datos sincronizados en vivo respaldados por recursos a pedido para poner en marcha las máquinas virtuales. Las imágenes de la aplicación se pueden hacer girar rápidamente, comparándolas con los datos en minutos en muchas circunstancias. Habrá un impacto en la disponibilidad mientras las imágenes giran, pero el menor costo de no tener que mantener dos instalaciones calientes puede hacer que esto sea lo suficientemente bueno para la mayoría de las necesidades de una organización.
La clave es automatizar siempre que sea posible. Mantenga a las personas alejadas de los sistemas de TI siempre que sea posible y utilice las herramientas adecuadas para proporcionar enfoques repetibles para las tareas comunes. Arquitecto del fracaso; utilice la redundancia para la conmutación por error, pero asegúrese de comprender lo que la empresa entiende por «alta disponibilidad». En muchos casos, encontrará que realmente significa «minimizar el tiempo de inactividad y mantener la integridad de los datos». Este enfoque del centro de datos es diferente y puede ahorrarle a una organización millones de dólares.
Sobre el Autor:
Clive Longbottom es cofundador y director de servicios de la firma de análisis e investigación de TI Quocirca, con sede en el Reino Unido. Longbottom tiene más de 15 años de experiencia en el campo. Con experiencia en ingeniería química, ha trabajado en proyectos de automatización, control de sustancias peligrosas, gestión documental y gestión del conocimiento.
[email protected]