Хроника эпохальной аварии

27

Бизнес-обучение не зря строится на кейсах. В них как в капельке росы отражается все: окружающий мир, его проблемы, его герои, его системные ошибки. Можно долго писать обзоры про облачный рынок России, а можно посмотреть, что случилось с «Битрикс». 

В пятницу 9 февраля 2018 года произошел сбой в работе сервиса «Битрикс 24». Это широкий функционал: управление задачами и проектами, календари, учет рабочего времени, бизнес-процессы, CRM, работа с документами, облачное хранилище для файлов, телефония. Треть российских клиентов внезапно все это теряет. 

Вендор быстро выяснил, что дело в провайдере. Российский сегмент «Битрикс 24» работал на серверах «Корп Софт», у которого есть основной и резервный дата-центры. Проводились учения, подписывались договора, однако совершенно внезапно выяснилось, что один коммутатор выводит из строя оба дата-центра сразу. Такая ошибка архитектуры. Ошибку исправить или скомпенсировать не удается. Точка отказа оказалась единой. 

Сергей Рыжиков, генеральный директор «1С-Битрикс», в понедельник 12 февраля сообщил через Фейсбук: «Развернуть новую структуру из трехсот серверов в России за выходные невозможно технически и организационно. Мы приняли решение в пятницу переносить все данные в Amazon в Германию. Очень сложная идея, но единственно возможная. За выходные мы развернули в Amazon новое оборудование и инфраструктуру. Все подготовили». Это к вопросу о том, насколько надо быть готовым к миграции, если используешь бизнес-критичную облачную систему. Первую половину дня понедельника проблемы продолжались по-прежнему по вине провайдера, но все же миграцию закончили. Инженеры сутки не спали. 

«Мы приносим извинения нашим клиентам за доставленные проблемы. Очень сожалеем, что размеры проекта не позволили за выходные осуществить перенос данных. Даже копирование сотен терабайт информации занимает существенное время. Материться уже не помогает. «Корп Софт» потерял адекватность», — сообщил Рыжиков. Но в итоге все завершилось хорошо: не сразу конечно, но сервис снова заработал устойчиво. 

Примечательно, как восприняли это клиенты и партнеры компании. Им стало плохо очень быстро. «Наш интернет-магазин не может заказы уже два дня подряд отправить. Вы нас разорите!». «Весь завод встал». Это к вопросу о том, насколько сильно зависит уже российский бизнес от ИТ. 

Руководители «Битрикс» постоянно держали всех в курсе событий. Они не стали делать глобальное оповещение всех клиентов, потому что все же две трети проблем не почувствовали. Работали через соцсети с теми, кого сбой затронул, во многих случаях — персонально с каждым. Это позволило смягчить ситуацию. «Самое худшее — это не сама проблема, а неведение, что происходит и как реагировать. Немного подождем». «Всю сеть перевели на Битрикс, в ультимативном порядке. Теперь сдерживаем "огонь" с разных точек страны. Спасибо, что "главнокомандующий" держит в курсе вестей с фронта. соскакивать с Битрикса не собираемся, хотя некоторым уже хочется». Открытость и информирование о ситуации в реальном времени дали плоды: «Держитесь, ребята. Мы потерпим еще» — таким было большинство комментариев. 

Всех конечно сразу очень заинтересовало, а как же требования ФЗ № 152 удовлетворять при переносе серверов в Германию. Резервирование в России баз данных и логов — таким был ответ. Во всяком случае, законность хранения данных «Битрикс» гарантирует. Клиентов интересовал вопрос легитимности не просто так, а потому что «от российского хостинга тошнит», и люди думают, а куда же деваться. 
Знакомые с облачным рынком не понаслышке отметили, что переход на Amazon будет заметно дороже и придется переплачивать за трафик. Но конечно руководство «Битрикс» понимает, что лучше так, чем потерять рынок. 

А что же провайдер? Чем он ответит? Битрикс несет репутационные потери и дополнительные расходы, рискует потерять клиентов. Вся «экосистема» получает простои, потери. Провайдер же может ответить только штрафом и не взять денег за эти несколько дней простоя. Спасибо большое! Одна из системных ошибок. И конечно все понимают, что поднять 300 серверов за выходные в России невозможно. Ну такой уж объем рынка, сколько выросло — столько и есть. 

Сделает ли выводы «Корп Софт»? Сделают ли выводы другие провайдеры? В «Битрикс» тоже сделали некоторые выводы: в том числе создают наконец единую страницу, где в реальном времени постоянно, а не только во время экстренных ситуаций, будет выводиться информация о доступности  сервиса. Хочется надеяться, что вендор и в дальнейшем будет достоин таких же отзывов, какие получил  сейчас: «Когда компания относится к клиентам так же, как ваша, она заслуживает самых добрых слов. Даже в случаях кризисов». 

Первоисточник: https://www.facebook.com/rsv.bitrix/posts/10215842170913214?pnref=story 
 

4654
Коментарии: 27

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • 12.02.2018 18:38

    1. Поднять 300 серверов в России за выходные можно, надо понять какие сервера нужны, какими техническими требованиями они должны обладать
    2. Проблема у провайдера (сети) или у ДатаЦентра, где расположены сервера? Это разные вещи. Дата центр предоставляет вычислительные ресурсы, а провайдера можно взять у ДатаЦентра, а можно взять своего, а можно двух. Если проблема с провайдером, то зачем искать 300 серверов?
    3. Проблема с коммутатором, т.е. по cути, все таки, с каналом связи - можно взять другого провайдера, в ДатаЦентре их должно быть много. Да, возможно, потребуется время, но это тоже вариант.
    4. Проблема с провайдером, с коммутатором, по сути с каналом связи - тогда как производили миграцию в АМАЗОН?

    Очень много вопросов...

    На самом деле тут явно видна ошибка компании Битрикс, которая должна понимать надежность сервиса (провайдера и ДатаЦентра), который она использует для продажи своего продукта.По сути они взяли облако и не разобрались в его надежности. Это, наверное, допустимо для маленькой компании или бизнеса, но когда такой большой масштаб, как Битрикс 24, то явно ошибка менеджмента компании.

    С хранением данных за пределами РФ - это очень большой вопрос... По сути, персональные данные запрещено там хранить, даже если копия есть в РФ. Что будет дальше, пока сложно представить, но думаю, что миграция в АМАЗОН - это слишком спешный и не обдуманный шаг.

  • 13.02.2018 08:02

    Я видимо недостаточно четко написала, в чем причина сбоя. Сами они пишут вот так: основной и резервный датацентр в компании Корпсофт связаны между собой и авария в одном из них выводит из строя резервный дц. То есть проблема не с сетью, не с доступом, а с самими дата-центрами.
    Битрикс конечно ошибку допустил: переоценили дата-центр. Но бывает и так, что все возможные тестирования проведены, а какая то критичная ошибка так и не нашлась.

    • 13.02.2018 09:49

      Если честно, то все равно очень странно выглядит, что Корп Софт построил резервный ДатаЦентр, который оказался зависим от основного....Не совсем понятно, что за такая связь между двумя разными Дата Центрами, которая может затронуть обоих сразу... Пока выглядит очень неправдоподобно.

      Было бы хорошо, получить комментарий от самого ДатаЦентра, что за проблема была и с чем она была связана.

      Основное правило при выборе резервного Дата Центра, чтобы он был независим от основного (по энергетике, провайдерам связи, расположению и т.д.)

      • 13.02.2018 10:21

        Сергей, я понимаю что потому он и резервный. Уверена, что и в Битрикс понимают. Когда они обнаружили, что в Корп Софте все не так, как им обещали, и дата центр на запросы отвечает "мы не знаем как такое могло получиться", посты были просто матом. Но этим дела не поправишь. Попытаюсь запросить Корп Софт о деталях.

  • 13.02.2018 17:31

    Ситуация проясняется. Информация от Битрикс:
    Корпсофт предоставили официальное письмо и провели подробный брифинг. Краткие тезисы:
    a. Основной и резервный датацентры связывает оптическое кольцом с четырьмя коммутаторами и выход одно узла не приводит к потере связанности. (Это правильная схема построения для систем подобного уровня. )
    b. Ребята считают, что имела место гибридная атака Man-In-TheMiddle + ArpSpoofing+ArpInjection
    c. Атака привела к нестабильной работе всех коммутаторов в кольце, что и приводило к временной потере связанности
    d. Корпсофт направил заявление в МВД в отдел К и привлечены специалисты по ИБ

    • Рустем Мустафин
      Рейтинг: 260
      ТК «Совтрансавто-М»
      Директор по ИТ
      14.02.2018 16:53

      Корп софт включили режим Демократической партии на выборах президента США - во всем виноваты хакеры! :)

      • Рустем
        14.02.2018 17:05

        Ну раз сказали А, то нужно будет и Б. Там сейчас идет расследование этого инцидента. Нужно же будет сказать, что это за атака, откуда она была, почему не было защиты и еще что нибудь такое....Что, у Битрикс прям есть такие злобные конкуренты, которые вот специально все это замутили? чтобы те рынок потеряли? сомнительно мне это.

  • Сергей Адмиральский
    Рейтинг: 10
    КОРУС Консалтинг CPM
    Менеджер проекта
    14.02.2018 13:50

    Вот внесет какой-нибудь из их клиентов SaaS Bitrix24 в реестр значимых объектов в соответствии с 187-ФЗ и придется подключать Amazon к СОПКА )

  • Олег Баталов
    Рейтинг: 152
    AO Caspian Beverage Holding
    Начальник отдела информационных технологий
    14.02.2018 16:20

    А как же элементарное правило "Не класть все яйца в одну корзину"?
    Детская ошибка менеджмента Битрикса. Сколько их еще всплывет?...

    • Олег
      14.02.2018 17:02

      Я тоже об этом думала. Но как класть в разные корзины? Размазать по разным дата-центрам? Держать несколько резервных развертываний? Они вроде бы сделали нормально - основной и резервный. Есть ведь и ограничения стоимости всего этого. А вы думаете как надо было сделать?

      • Олег Баталов
        Рейтинг: 152
        AO Caspian Beverage Holding
        Начальник отдела информационных технологий
        17.02.2018 11:24

        В любой компании, сколько бы у них не было дата-центров, определенный уровень компетенции, более-менее общий набор применяемых решений. Единые финансовые ограничения. И как следствие высокий риск воспроизводства сбоя на других площадках. Что и продемонстрировал Корп Софт.

        Насколько я понял, коллеги из Битрикса так и не сделали правильных выводов, и теперь полностью зависят уже от "Западного" хостера. А к списку возможных проблем теперь добавлены и политические риски.

        • Олег
          18.02.2018 05:58

          Насколько я поняла, ваш совет был бы - сделать дублирование несколькими дата центрами. Так? Что касается Амазона: мне уже не раз говорили разные ИТ директора, что это единственный по настоящему "облачный" и по настоящему надежный дата центр. Но двое примерно дороже наших.

          • Олег Баталов
            Рейтинг: 152
            AO Caspian Beverage Holding
            Начальник отдела информационных технологий
            18.02.2018 07:59

            Вы не правильно меня поняли. Дублировать надо владельцев дата-центров. Насколько я помню, в 2011 году и у амазона был сбой на 4 суток.

            • Олег
              19.02.2018 05:35

              Мы видимо говорим об одном и том же: что облачное решение должно быть развернуто в нескольких, а не в одном, дата центре. Видимо, так и есть: если бы это было иначе, легли бы не треть российских клиентов, а все.

  • Владимир Шихин
    Рейтинг: 10
    НИУ МЭИ
    Научный руководитель НИЛ "Оптимизация и автоматизация энергетических и технологических процессов"
    14.02.2018 16:47

    К сожалению, не удивляет уровень работы средних отечествееных специалистов, хотя всех нельзя так едино оценивать. Инжинерия в РФ - это уже системная проблема. За время работы в GE RU убедился, что мы уже дошли до того, что и эксплуатировать хорошее оборудование часто не способны. Понимаю, что высказался не конструктивно, но наболело... Кстати, сам пользуюсь Битриксом.

  • Сергей Авдалян
    Рейтинг: 20
    All Smiles
    Руководитель ИТ
    14.02.2018 20:50

    По иронии судьбы, в тот день я как раз завершил внедрение bitrix24 в http://primelegal.ru итеграцию с почтой и телефонией и начал обучение пользователей и перевод бизнес-процессов...

  • Алексей Никифоров
    Рейтинг: 459
    TENNANT Russia ( Теннант Россия)
    IT директор
    15.02.2018 00:03

    А мне уже пришло письмо от некого партнера Битрикс24 с предложением за три копейки перейти на коробочную версию в своем облаке.
    Кому горе, а кому бизнес.
    Нынешнее падение было печально тем, что телефоны из Битрикс24 тоже легли.
    У нас это случилось впервые: портал бывает недоступен, но телефония всегда раньше работала.

  • Андрей Соловьев
    Рейтинг: 20
    НПП Спецгеофизика
    главный инженер
    15.02.2018 10:41

    Яркая демонстрация слабости аутсорсинга и публичных облачных технологий. О чем я постоянно предупреждаю своих коллег, когда заходит разговор о переходе на облака и стороннюю поддержку.

  • Валерий Лиховских
    Рейтинг: 31
    ООО "НТЦ ТРАНССИСТЕМОТЕХНИКА"
    Руководитель направления
    16.02.2018 10:52

    Перекладывание проблем эксплуатации IT инфраструктуры своего бизнеса в "облако" не означает автоматического решения этих проблем. Это означает только ваше самоустранение от их решения.

    • Валерий
      18.02.2018 05:56

      Ну теоретически облако как раз и означает, что инфраструктурных проблем у вас стало меньше, когда вы туда перешли. Вы, вроде бы, как раз и платите за то, чтобы у вас таких проблем не было. Не очень я как то представляю, как можно вмешаться в работу облачного дата центра даже при необходимости. Мне кажется, все же, что либо отдали - и тогда это не ваши проблемы, вы можете только уйти, если не нравится, либо вы не отдали и разбираетесь со своими проблемами сами. Но к облакам такое положение отношения не имеет.

      • Валерий Лиховских
        Рейтинг: 31
        ООО "НТЦ ТРАНССИСТЕМОТЕХНИКА"
        Руководитель направления
        19.02.2018 09:01

        Ни одно "облако" в нынешнем виде не гарантирует 100% доступа к информационному ресурсу. Думаю, что для создания "неубиваемых" систем нужно реализовывать программно-аппаратные решения со 100% избыточностью с программными элементами в "аппаратном облаке" и вне его.

  • 19.02.2018 05:40

    Амазон - это временное решение, как и можно было предположить.
    Вот что пишет сам Сергей Рыжиков:
    - Еще раз отвечу про персональные данные. Говоря "переезд" в Германию, я сознательно упрощаю описания происходящего для понятности. Внутри все устроено значительно сложнее. К двум датацентрам в РФ добавляется еще два в Германии со сложной схемой взаимодействия.
    4. Текущая схема временная. Наши инженеры уже начали работы по подготовке новых Датацентров в России.
    Источник - https://www.facebook.com/rsv.bitrix/posts/10215852917301867?pnref=story.

    • Валерий Лиховских
      Рейтинг: 31
      ООО "НТЦ ТРАНССИСТЕМОТЕХНИКА"
      Руководитель направления
      19.02.2018 08:59

      Ни одно "облако" в нынешнем виде не гарантирует 100% доступа к информационному ресурсу. Думаю, что для создания "неубиваемых" систем нужно реализовывать программно-аппаратные решения со 100% избыточностью с программными элементами в "аппаратном облаке" и вне его.

    • Андрей Зелинский
      Рейтинг: 43
      АО "КировТЭК", ГК "Кировский завод"
      Начальник АСУП
      20.03.2018 13:37

      ФЗ-152 ст.18 п.5
      "При сборе персональных данных, в том числе посредством информационно-телекоммуникационной сети "Интернет", оператор обязан обеспечить запись, систематизацию, накопление, хранение, уточнение (обновление, изменение), извлечение персональных данных граждан Российской Федерации с использованием баз данных, находящихся на территории Российской Федерации, за исключением случаев, указанных в пунктах 2, 3, 4, 8 части 1 статьи 6 настоящего Федерального закона."
      Т.е., в настоящий момент, практически все кто работает с персональными данными обязаны прекратить использование облачных сервисов "Битрикс 24". Менеджмент Битрикса, интересно, о чём думал когда сервис в Германию мигрировал? Понятно что у Амазона хороший облачный сервис, но этим своим решением они наверняка очень сильно подставили многих своих клиентов (некоторые, кстати, могут и не знать про это пока их не поймали на том что персональные данные за пределами РФ держат со всеми вытекающими последствиями).
      Неужели в России ни одного альтернативного дата-центра найти не удалось?

      P.S.: Вот, кстати, вполне реальная демонстрация опасности использования облачных сервисов. Данные без консультации с владельцами о допустимости подобной операции и, на сколько я понял, даже без уведомления их (т.к. спешили очень) утащили за границу.

      • Андрей
        20.03.2018 14:36

        Андрей Павлович, насколько я знаю, они искали конечно дата центры в России, но у них была задача 300 серверов за выходные развернуть. Так быстро и так много не нашлось желающих сделать.
        Думаю, что теперь уже проведена обратная миграция - во всяком случае такой план был.

        • Андрей Зелинский
          Рейтинг: 43
          АО "КировТЭК", ГК "Кировский завод"
          Начальник АСУП
          20.03.2018 14:53

          Главное, чтобы с ФСБ, вследствие этих действий, ни у кого из клиентов не успели возникнуть проблемы (то что данные были скопированы за территорию РФ возможно тоже, может стать подобной проблемой, т.к. является нарушением конфиденциальности хранения данных).
          Потому я и писал про опасность использования облачных сервисов.

          • Андрей
            20.03.2018 15:03

            Насколько мне известно, работать с облачными провайдерами вне России - очень распространенная практика. В очень грубом виде отмазка такова: мы не храним персональные данные за рубежом. все данные мы храним здесь, в России. а там где то мы работаем с копиями данных или какими то их элементами. Я НЕ могу привести примеры, когда была использована такая схема, пройдены проверки компетентных органов и не было получено замечаний или чего похуже. Но и случаев наказания за все это я не знаю. Что не значит, конечно, что таких случаев нет.

Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.