Facebook предлагает более подробную информацию о сбое в понедельник: «Ошибка нашего собственного производства».

Доходы Facebook выросли на 56%, несмотря на изменения конфиденциальности iOS

Facebook продолжает делиться более подробной информацией о том, что именно вызвало шестичасовое отключение, отключившее Facebook, Messenger, Instagram и WhatsApp в понедельник. В новом сообщении в блоге Facebook углубляется в некоторые технические детали того, что привело к отключению, говоря, что это произошло из-за ошибки во время одного из его многочисленных «плановых работ по техническому обслуживанию».

Facebook опубликовал свой первый отчет о сбое в работе поздно вечером в понедельник, объяснив его единственной ошибкой, которая оказала «каскадный эффект» на связь в центре обработки данных, что привело к «остановке наших услуг».

Facebook заявляет, что, хотя у него есть системы для аудита команд, которые могут вывести из строя всю его сеть, «ошибка в этом инструменте аудита не остановила должным образом» эту команду.

Трафик данных между всеми этими вычислительными устройствами управляется маршрутизаторами, которые определяют, куда отправлять все входящие и исходящие данные. И в ходе обширной повседневной работы по обслуживанию этой инфраструктуры нашим инженерам часто приходится отключать часть магистрали для обслуживания — например, ремонта оптоволоконной линии, увеличения пропускной способности или обновления программного обеспечения на самом маршрутизаторе.

Это было причиной вчерашнего отключения. Во время одного из этих плановых работ по техническому обслуживанию была дана команда с намерением оценить доступность глобальной магистральной пропускной способности, которая непреднамеренно отключила все соединения в нашей магистральной сети, фактически отключив центры обработки данных Facebook во всем мире. Наши системы предназначены для аудита таких команд, чтобы предотвратить подобные ошибки, но ошибка в этом инструменте аудита не остановила команду должным образом.

Это изменение привело к полному отключению наших серверных соединений между нашими центрами обработки данных и Интернетом. И эта полная потеря связи вызвала вторую проблему, которая только усугубила ситуацию.

Одна из задач, выполняемых нашими небольшими предприятиями, — это отвечать на запросы DNS. DNS — это адресная книга в Интернете, позволяющая преобразовывать простые веб-имена, которые мы вводим в браузеры, в определенные IP-адреса серверов. На эти запросы на перевод отвечают наши авторитетные серверы имен, которые сами занимают хорошо известные IP-адреса, которые, в свою очередь, объявляются остальной части Интернета через другой протокол, называемый протоколом пограничного шлюза (BGP).

Чтобы обеспечить надежную работу, наши DNS-серверы отключают эту рекламу BGP, если они сами не могут связаться с нашими центрами обработки данных, поскольку это указывает на нездоровое сетевое соединение. В результате недавнего сбоя вся магистраль была отключена, в результате чего эти местоположения объявили себя неработоспособными и отозвали эти рекламные объявления BGP. В результате наши DNS-серверы стали недоступны, хотя они все еще работали. Это сделало невозможным для остальной части Интернета найти наши серверы.

После того, как все платформы Facebook вышли из строя, на его способность устранять неисправности повлияли внутренние инструменты, на которые также повлияло отключение. Таким образом, Facebook отправил инженеров в центры обработки данных для получения физического доступа к оборудованию. Однако даже это потребовало времени, потому что «оборудование и маршрутизаторы спроектированы таким образом, чтобы их было сложно модифицировать, даже если у вас есть физический доступ к ним».

В этом конкретном случае он говорит, что усилия, предпринятые для повышения безопасности его систем, замедлили его способность восстанавливаться после сбоя, но это компромисс, который, по его мнению, того стоит:

Мы проделали обширную работу по укреплению наших систем для предотвращения несанкционированного доступа, и было интересно увидеть, как это усиление замедлило нас, когда мы пытались восстановиться после сбоя, вызванного не злонамеренными действиями, а нашей собственной ошибкой. Я считаю, что подобный компромисс того стоит — значительно повышенная повседневная безопасность по сравнению с более медленным восстановлением после, надеюсь, редкого события, подобного этому.

Facebook заявляет, что уже начал «обширный процесс проверки, чтобы понять, как мы можем сделать наши системы более устойчивыми».

Соцсети