Krypton Solid

Krypton Solid
Krypton Solid

La última tecnología en raciones de 5 minutos

Desarrolle una lista de verificación de mantenimiento del servidor de 7 pasos

Incluso con el rendimiento y las características redundantes de los servidores, mayor consolidación de la carga de trabajo y expectativas de confiabilidad …

puede afectar el hardware del servidor.

Una lista de verificación de mantenimiento del servidor debe cubrir los elementos físicos, así como la configuración de la capa de software del sistema. También debe tener en cuenta el hecho de que el mantenimiento completo requiere tiempo, horas de trabajo y pruebas. El uso de una lista de verificación ayuda a los administradores a definir sus objetivos y mantener al día a los equipos de TI.

1. Desarrolle una rutina de mantenimiento

Los administradores de servidores a menudo pasan por alto las ventanas de mantenimiento de planificación. No espere hasta que haya una falla real; Reserve tiempo para el mantenimiento preventivo de rutina del servidor.

La frecuencia del mantenimiento depende de la antigüedad del equipo, el centro de datos y el volumen de servidores que requieren mantenimiento. Por ejemplo, los equipos más antiguos ubicados en un armario de equipos necesitan inspecciones más frecuentes que los servidores nuevos implementados en un centro de datos bien refrigerado y filtrado de aire con partículas de alta eficiencia.

Las organizaciones pueden basar los programas de mantenimiento de rutina en las rutinas del proveedor o de un proveedor externo; Si el contrato de servicio del proveedor requiere inspecciones del sistema cada cuatro o seis meses, siga ese programa.

2. Prepárese para el tiempo de inactividad

Tenga un plan antes de abordar los elementos de una lista de verificación de mantenimiento del servidor. Esto incluye comprobar los registros del sistema en busca de errores o eventos que requieran una atención más directa. Si los registros del sistema indican errores con un módulo de memoria específico, debe solicitar un módulo de memoria dual en línea (DIMM) de reemplazo y tenerlo disponible para su instalación. De manera similar, si hay parches / actualizaciones de firmware, sistema operativo o agentes disponibles, pruébelos y examínelos primero antes de la ventana de mantenimiento planificada.

Tenga un plan claro y definido para desconectar el sistema y volverlo a poner en servicio. Antes de la virtualización, el servidor y su aplicación residente requerían tiempo de inactividad para adaptarse a la ventana de mantenimiento, lo que obligaba a los administradores a realizar tareas de mantenimiento durante la noche o los fines de semana.

Lista de verificación de mantenimiento del servidor

DESCARGUE UN PDF DE ESTA LISTA DE VERIFICACIÓN DE MANTENIMIENTO DEL SERVIDOR

Los servidores virtualizados permiten la migración de la carga de trabajo en lugar del tiempo de inactividad, por lo que los administradores pueden migrar aplicaciones a otros servidores y permanecerán disponibles siempre que se realice el mantenimiento del servidor en el sistema host subyacente. Antes del servicio, sepa dónde deben ir las máquinas virtuales, migre las máquinas virtuales a los sistemas seleccionados y verifique que cada carga de trabajo sea funcional antes de apagar el servidor para realizar tareas de mantenimiento.

CONTENIDO RELACIONADO  Encontrar talento en IA es casi imposible, así que cultívelo

En este punto, los administradores pueden apagar el servidor y sacarlo del bastidor.

3. Inspeccione las rutas del flujo de aire

Una vez que un servidor está fuera de línea, inspeccione visualmente sus rutas de flujo de aire internas y externas. Elimine cualquier acumulación de polvo y escombros que puedan impedir el enfriamiento del aire.

Comience con las entradas y salidas de aire exteriores, luego continúe en el chasis del sistema, observando los conjuntos de ventilador y disipador de calor de la CPU, los módulos de memoria y todas las aspas del ventilador de refrigeración y los conductos de aire. Asegúrese de limpiar el servidor con él extraído del bastidor. Elimine el polvo o los escombros en un espacio de trabajo adecuado y a prueba de electricidad estática con aire comprimido limpio y seco.

La limpieza del polvo no es un proceso nuevo, pero sigue siendo necesario. El polvo es un aislante térmico, por lo que es aún más importante eliminarlo, ahora que los esquemas de refrigeración alternativos y las recomendaciones de ASHRAE han elevado las temperaturas de funcionamiento del centro de datos. El polvo y otras obstrucciones del flujo de aire hacen que el servidor utilice más energía e incluso pueden provocar fallas evitables en los componentes.

4. Verifique los discos duros locales

Los servidores dependen de los discos duros internos para el arranque, el inicio y el almacenamiento de la carga de trabajo y los datos del usuario. Los problemas de los medios de disco perjudican el rendimiento y la estabilidad de la carga de trabajo y provocan fallos prematuros del disco. Utilice herramientas como la utilidad Comprobar disco para verificar la integridad del disco e intentar recuperar los sectores defectuosos en él.

Los medios magnéticos no son perfectos; los problemas comunes incluyen sectores defectuosos y fragmentación. RAID contribuye en gran medida a preservar la integridad de los datos después de errores de almacenamiento, pero los servidores en rack de 1U más pequeños no proporcionan suficiente espacio físico para implementar una matriz de discos.

CONTENIDO RELACIONADO  ¿Qué es el diagrama de caja? - Definición de Krypton Solid

La fragmentación del disco simplemente no desaparecerá, siempre que el sistema de archivos NT y la tabla de asignación de archivos, los sistemas de archivos usen el espacio en disco por los primeros clústeres disponibles. La fragmentación puede ralentizar el disco de un servidor y provocar fallas. La utilidad Optimize-Volume Windows Server 2016 desfragmenta, recorta y realiza el procesamiento del nivel de almacenamiento.

5. Verificar los eventos y los datos de registro

Los servidores registran una gran cantidad de información de incidentes en registros de eventos. Ninguna lista de verificación de mantenimiento del servidor está completa sin una revisión cuidadosa del sistema, el malware y otros registros de eventos. Claro, los problemas críticos del sistema deben atraer la atención de los administradores y técnicos de inmediato, pero innumerables problemas menores pueden indicar problemas crónicos.

Mientras examinan los registros, los administradores deben verificar la configuración de informes y verificar los destinatarios correctos de las alertas y las alarmas. Por ejemplo, si un técnico abandona el grupo de servidores, deberá actualizar el sistema de informes del servidor.

Verifique también los métodos de contacto; un error crítico informado a la dirección de correo electrónico de la empresa de un técnico es irrelevante si el error se produce fuera del horario comercial.

Cuando la inspección de registros revela problemas crónicos o recurrentes, la investigación proactiva puede resolver el problema antes de que se agrave. Si el registro del servidor informa errores recuperables en un módulo de memoria, no activará alarmas críticas. Pero si hay casos repetidos que señalan problemas con el módulo, los administradores pueden realizar un análisis más detallado para identificar fallas inminentes.

Si los problemas no son lo suficientemente graves como para apagar un servidor, los administradores pueden devolver el servidor a producción hasta que entre el hardware de reemplazo.

6. Pruebe parches y actualizaciones

La pila de software del servidor (BIOS, SO, hipervisores, controladores y aplicaciones) debe funcionar en conjunto. Desafortunadamente, el código de software rara vez está libre de problemas, por lo que las piezas de este rompecabezas se reparan o actualizan con frecuencia para corregir errores, mejorar la seguridad, optimizar la interoperabilidad y mejorar el rendimiento.

Ningún software de producción debería tener actualizaciones automáticas. Los administradores deben determinar si es necesario un parche o una actualización, luego evaluar y probar minuciosamente el cambio.

CONTENIDO RELACIONADO  Mejores prácticas y consideraciones de conectividad en la nube híbrida

Los desarrolladores de software no pueden probar todas las combinaciones potenciales de hardware y software, así que elija los parches y las actualizaciones con prudencia para evitar problemas de rendimiento o interrupciones del flujo de trabajo. Por ejemplo, un parche de agente de supervisión podría causar problemas con una carga de trabajo importante porque el nuevo agente consume más ancho de banda del esperado.

El cambio a DevOps, con actualizaciones más pequeñas y frecuentes, aumenta el potencial de problemas. Las organizaciones aún deben probar cualquier parche o actualización en un laboratorio antes de implementarlo en un entorno de pruebas o configuración de prueba y siempre tienen la capacidad de restaurar la configuración del software original.

7. Registre cualquier cambio en el sistema.

Muchas cosas le pueden pasar a un servidor durante una ventana de mantenimiento, como cambios de configuración de hardware, software o sistema. Cuando los administradores hayan completado la lista de verificación de mantenimiento del servidor, es vital que verifiquen y registren cualquier nuevo estado del sistema. Por ejemplo, cambiar un adaptador de red, agregar o reemplazar DIMM o actualizar un sistema operativo altera la configuración del sistema.

Las organizaciones que dependen de las herramientas de administración de la configuración del sistema pueden necesitar actualizar o descubrir cualquier cambio, registrando esos cambios en la base de datos de administración de la configuración antes de que el sistema vuelva a estar en servicio. Los administradores deben actualizar cualquier postura de configuración de estado exigida o deseada para permitir los cambios.

También verifique las posturas de seguridad del sistema, como la configuración del firewall, las versiones antimalware o la frecuencia de escaneo y la configuración de detección de intrusos. Las comprobaciones de seguridad garantizan que los cambios en el software del sistema no exponen inadvertidamente ninguna superficie de ataque que se cerró en la configuración anterior.

No olvide actualizar las copias de seguridad del sistema o el contenido de recuperación de desastres (DR) una vez que el servidor vuelva a estar en línea.

Verifique que la frecuencia de respaldo / recuperación ante desastres del servidor permanezca sin cambios, a menos que se deba ajustar específicamente cualquier configuración relacionada para reflejar el nuevo caso de uso del servidor.

¡Haz clic para puntuar esta entrada!
(Votos: Promedio: )

También te puede interesar...

Los MSP enfrentan dolores de crecimiento operativos

WASHINGTON, DC – Llega un momento en la vida de un proveedor de servicios en el que la adrenalina inicial del crecimiento empresarial comienza a desvanecerse y se instala una dura realidad: para continuar creciendo

¿Qué es el carácter? – Definición de Krypton Solid

1) En tecnología de la información, un carácter es un símbolo imprimible que tiene un significado fonético o pictográfico y generalmente forma parte de una palabra de texto, representa un número o expresa puntuación gramatical.

Guía de sesión para ajustar Kubernetes

Si bien Kubernetes es una tecnología relativamente joven, que alcanzó la versión 1.0 en 2015, muchas organizaciones de TI ejecutan grandes cargas de trabajo de producción con implementaciones de contenedores y Kubernetes maduros. Para estos

Personalización de SEO y CX por voz

La personalización de Voice SEO y CX están creciendo significativamente y se están volviendo cada vez más importantes para los profesionales de la experiencia del cliente, según los analistas que reflexionan sobre el futuro a

¿Qué es el enfriamiento de Kioto (rueda de Kioto)?

KyotoCooling es un sistema de enfriamiento gratuito energéticamente eficiente para centros de datos. El sistema KyotoCooling utiliza una rueda térmica que soporta el flujo de aire de un lado a otro, separando las corrientes de

Cumplimiento de la FCPA: lecciones aprendidas de Bio-Rad

Bio-Rad Laboratories Inc., una empresa de investigación en ciencias biológicas y diagnóstico clínico con sede en California, obtuvo 35 millones de dólares adicionales en ganancias en el transcurso de cinco años al pagar millones de

El estilo de Amazon en IoT

describe el modelo de negocio basado en resultados. Principio 7: El modelo empresarial basado en resultados He trabajado en el negocio de la gestión de proyectos esencialmente durante toda mi carrera, liderando equipos de personas

Pruebas de software en la nube

La computación en la nube ha experimentado un auge en los últimos años y el mundo del desarrollo de software se ha puesto al día con el fenómeno. Es posible que la tecnología no sea

¿Qué es un asistente digital personal (PDA)?

¿Qué es un asistente digital personal (PDA)? Asistente digital personal es un término para un dispositivo pequeño, móvil y de mano que proporciona capacidades de recuperación y almacenamiento de información y computación para uso personal

Cobertura de la conferencia Dreamforce 2015

Nota del editor En la conferencia Dreamforce 2015, el proveedor de CRM basado en la nube Salesforce aprovechó sus innovaciones clave del año pasado, con mejoras en su plataforma de desarrollo, Lightning, y su oferta

Acquia adquiere Widen digital asset management

Acquia firmó un acuerdo definitivo para adquirir el proveedor de gestión de activos digitales Widen para mejorar su plataforma de experiencia DXP. Aunque no se revelaron los términos del acuerdo, el cofundador de Acquia, Dries

¿Qué es la política de continuidad del negocio?

Una política de continuidad del negocio es el conjunto de estándares y directrices que aplica una organización para garantizar la resiliencia y la gestión de riesgos adecuada. Las políticas de continuidad comercial varían según la

¿Qué es la arquitectura empresarial (EA)?

Una arquitectura empresarial (EA) es un plan conceptual que define la estructura y el funcionamiento de las organizaciones. La intención de la arquitectura empresarial es determinar cómo una organización puede lograr eficazmente sus objetivos actuales

Flujo de paquetes de todas las redes

Por: Craig S. Wright Para llevar del proveedor de servicios: El cumplimiento de normativas y normas puede plantear varios desafíos tanto desde una perspectiva comercial como técnica. Esta sección del extracto del capítulo del libro

Opciones de almacenamiento de datos sanitarios

Artículo La recuperación ante desastres es fundamental para mantener en línea a las organizaciones sanitarias Un sistema de salud utiliza una combinación de opciones de almacenamiento para la recuperación de desastres, como la nube y

TrueNAS Scale le da un giro de almacenamiento a HCI

Después de haber sido probado en alfa y beta durante un año, iXsystems lanza su sombrero en el anillo de infraestructura hiperconvergente con TrueNAS Scale. TrueNAS Scale es el producto HCI de código abierto de

Deja un comentario