Skip to main content

Вчерашний сбой в работе Facebook, в результате которого были отключены Facebook Messenger, Instagram и WhatsApp, а также основной сервис, был вызван ошибкой сетевых инженеров компании.

Ошибка привела к тому, что все сервисы Facebook стали недоступны, по одной аналогии это уподобляется сбоям в сервисах «управления воздушным движением» для сетевого трафика …

Вчера мы сообщали о массовом провале.

Дело не только в вас: Facebook, Instagram и WhatsApp в настоящее время недоступны для пользователей по всему миру. Мы видим сообщения об ошибках во всех трех сервисах в приложениях iOS, а также в Интернете. Пользователи получают сообщения об ошибках, например: «Извините, что-то пошло не так», «Ошибка сервера 5xx» и т. Д.

Согласно данным Downdetector и Twitter, отключение затронуло каждую платформу, принадлежащую Facebook. Сюда входят Instagram, Facebook, WhatsApp и Facebook Messenger. […] Хотя некоторые сбои в работе Facebook, Instagram и WhatsApp затрагивают только определенные географические регионы, сегодня службы не работают во всем мире.

Постепенно выяснилось, что проблема может быть связана с DNS — серверами доменных имен, которые сообщают устройствам, какие IP-адреса использовать для доступа к службам, — но было неясно, что именно произошло, и было ли это внешним взломом, злонамеренными действиями инсайдера, или катастрофическая ошибка.

Facebook теперь признал в своем блоге, что это была ошибка.

Наши инженерные группы узнали, что изменения конфигурации магистральных маршрутизаторов, которые координируют сетевой трафик между нашими центрами обработки данных, вызвали проблемы, которые прервали эту связь. Это нарушение сетевого трафика оказало каскадное влияние на способы связи наших центров обработки данных, в результате чего наши услуги были остановлены.

Решение проблемы заняло много времени, поскольку в число недоступных систем входили серверы и инструменты, которые инженеры обычно использовали для удаленного решения проблемы. Отчеты показывают, что сотрудники нижнего уровня должны были получить физический доступ к центрам обработки данных, а затем полагаться на пошаговые инструкции от более старших инженеров, чтобы исправить ошибку. Ситуация усложнялась тем, что недоступность сетей означала, что системы доступа к дверям Facebook также были отключены, что физически препятствовало доступу.

Как понять отключение Facebook

Мы, несомненно, получим всю историю вовремя, но возникло общее мнение, что проблема заключалась в некотором сочетании конфигурации сервера доменных имен (DNS) и протокола пограничного шлюза (BGP).

Лучшая аналогия, которую я видел, — думать о сетевом трафике как о самолетах. Ваше устройство хочет перейти на facebook.com. Вашему самолету сначала необходимо знать GPS-координаты аэропорта назначения, то есть IP-адрес, к которому он должен подключиться. Он получает эту информацию, запрашивая DNS, который сообщает ему, что facebook.com находится (например) по адресу 66.220.144.0.

Но для того, чтобы добраться до конечного пункта назначения — фактического сервера, который может выполнить ту задачу, которую вы хотите выполнить, — требуется своего рода система управления воздушным движением для сетевого трафика, и это BGP. BGP сообщает вашему устройству, по какому маршруту пролететь через различные серверы по пути к вашему конечному пункту назначения.

Похоже, что Facebook полностью потерял свои системы BGP, поэтому у Facebook не было возможности сообщить устройствам, как добраться до места назначения. В том числе инженеры Facebook разработали системы, необходимые для исправления ошибки.

Отключение имеет огромные последствия

Если бы люди просто не могли размещать видео с кошками в течение нескольких часов, это было бы одно (впрочем, давай, что такое жизнь без видео с кошками?). Но WhatsApp, по сути, является критически важным элементом инфраструктуры связи во многих странах, который обычно используется, например, для связи между пациентами и врачами, а многими используется для платежей.

Продолжительное отключение привлекло внимание к тому, насколько уязвим весь мир к сбоям такого рода.

Например, миллионы людей полагаются на DNS-серверы Google для доступа к каждому серверу на планете. Представьте себе, что эти серверы выходят из строя на длительный период. Это не только повлияет на потребителей, но и нарушит торговлю и критически важную инфраструктуру. Заводское производство, автопарк, розница… завод.

Весь мир критически зависит от относительно небольшого количества серверов, все из которых могут быть отключены из-за ошибки, подобной той, которая произошла здесь. Необходимо много подумать о том, как предотвратить гораздо более серьезное отключение Интернета в будущем.

Фото: НАСА.