AMAZON explica la causa de la reciente caida de sus servidores
Plataformas como Quora, Imgur y Giphy. Servicios y aplicaciones como Slack, Twitch y Airbnb. Webs de noticias como Business Insider y Gizmodo estuvieron caídas durante horas el martes (y en especial sus imágenes, alojadas en los servidores de Amazon S3). ¿El motivo? Un simple typo.
La nube de Amazon (Amazon Web Services) es una parte importante de la columna vertebral de Internet. Si falla, buena parte de Internet se cae.
Hoy Amazon ha revelado la causa de la caída del martes. Por supuesto, carga toda la culpa a un empleado (¿o exempleado?) que escribió mal un comando. Todo empezó cuando depuraban su sistema de facturación:
“Nos gustaría darte información adicional sobre la interrupción del servicio que ocurrió en la región de Virginia del Norte (US-EAST-1) en la mañana del 28 de febrero. El equipo de Amazon Simple Storage Service (S3) estaba depurando un problema que hacía que el sistema de facturación de S3 progresara más lento de lo esperado. A las 9:37 AM PST, un miembro autorizado del equipo de S3 ejecutó un comando de un manual establecido con la intención de eliminar un pequeño número de servidores de uno de los subsistemas S3 que son utilizados por el proceso de facturación de S3. Desafortunadamente, una de las entradas del comando se ingresó incorrectamente y eliminó un conjunto de servidores más grande que el previsto. Los servidores que fueron eliminados inadvertidamente soportan otros dos subsistemas S3. Uno de estos subsistemas, el subsistema de índice, gestiona la información de metadatos y ubicación de todos los objetos S3 de la región. Este subsistema es necesario para servir todas las solicitudes GET, LIST, PUT y DELETE. El segundo subsistema, el subsistema de colocación, gestiona la asignación de nuevo almacenamiento y requiere que el subsistema de índice funcione correctamente para funcionar. El subsistema de colocación se utiliza durante las peticiones PUT para asignar almacenamiento a objetos nuevos. Eliminar una porción significativa de la capacidad hizo que cada uno de estos sistemas requiriera un reinicio completo. Mientras se estaban reiniciando estos subsistemas, S3 no pudo atender solicitudes.”
¿Por qué tardaron tanto en reiniciarse? Según explica Amazon, S3 ha experimentado un crecimiento masivo en los últimos años y el proceso de reiniciar los servicios y ejecutar los controles de seguridad necesarios para validar la integridad de los metadatos “tomó más tiempo de lo esperado”.
La compañía asegura que está implementando cambios en sus sistemas para permitir que se restablezcan más rápidamente. También ha declarado la guerra a los errores tipográficos: en el futuro, sus ingenieros ya no podrán eliminar servidores de S3 por debajo de cierto umbral de capacidad.
Ver información original al respecto en Fuente:
to-por-un-ingeniero-de-amazon-1792910295
NOTA: Los interesados en información sobre contrato de soporte Asistencia Tecnica de SATINFO y/o licencia de uso/actualizaciones de sus utilidades, contacten con info@satinfo.es
__________
Este blog no se hace responsable de las opiniones y comentarios de los textos en los que se cita la Fuente, ofreciendo su contenido solo para facilitar el acceso a la información del mismo.
Puedes seguir cualquier respuesta a esta entrada mediante el canal RSS 2.0. Los comentarios y los pings están cerrados.
Los comentarios están cerrados.