«Бесчеловечные ИТ»: админ не нужен

14 июня 2024

В мире, где каждая секунда простоя для бизнеса может стоить миллионы, необходимы новые подходы к управлению и мониторингу цифровых систем. Новая концепция «бесчеловечных ИТ» переворачивает традиционные представления о роли человека и возможностях автоматизации.

Удар на копейку

Представьте, вам понадобилось обновить прошивки в сетевых коммутаторах. Вызвали специалистов подрядчика, работы наметили на выходные – поменьше нагрузки и рисков в случае сбоя.

Технические специалисты запустили обновление одновременно на всех коммутаторах и покинули рабочие места – процесс не быстрый (часа на 4), а за окном выходной день. Но файлы с прошивками оказались «битыми». В результате – непредвиденный сбой в работе ИТ-систем компании, весь ее онлайн-фронтенд «ложится» на десять часов. Для имиджа любого бизнеса это мощный удар.

Другой пример. Сотрудники компании решили поэкспериментировать с обновлением системы оповещений о транзакциях по SMS. Для этого сняли со счетов множества клиентов символическую 1 копейку и разослали им сообщения. Ночью. А утром эту копейку вернули.

Ничего не понимающие клиенты с утра первым делом пошли проверять, что произошло. Соответствующие системы предсказуемо «легли» на несколько часов, не пройдя такое стресс-тестирование. В итоге – быстрое разрастание паники у клиентов, финансовые потери и т.д.

Как с этим бороться? В первом случае автоматизированные системы мониторинга и контроля ограничили бы доступ к одновременной установке обновлений. Обновился один – можете переходить к работе с другим, чтобы в случае проблем на одном коммутаторе остальные бы оставались в строю.

Во втором – автоматика не допустила бы такого развития ситуации через контроль за пиковыми нагрузками, автоматическое управление очередями запросов и ограничение их числа. Включились бы механизмы автоматического переключения на резервные мощности и кэширование запросов, минимизируя неудобства для клиентов и потери для банка.

Как видно из приведенных примеров, в современной компании простоев и недоступности ИТ-систем не должно наступать ни на минуту, а в некоторых случаях – ни на секунду. И это касается подавляющего большинства крупных компаний. Внедрение решений для поддержания такого уровня доступности ИТ – вопрос выживания на рынке.

Концепция «бесчеловечных ИТ» представляет собой кульминацию технологического развития, переворачивая представления об управлении и мониторинге цифровых систем. Алгоритмы не только выполняют рутинные задачи, но и самостоятельно обучаются, адаптируются, принимают решения, а человеческое участие сведено к минимуму.

Концепция не только бросает вызов традиционным представлениям о роли человека в цикле поддержки ИТ-систем, но и открывает большие перспективы.

Как прийти к такому уровню автоматизации?

Делай – раз

Первое – автоматизация рутинных запросов на доступы, ресурсы и прочие составляющие ИТ-ландшафта через порталы самообслуживания. Эта модель исключает необходимость в ручном выполнении заявок сотрудниками ИТ-департамента, сокращая время ожидания.

Вместо того, чтобы оставлять заявку в ИТ-отдел и ждать ее выполнения, бизнес-пользователь получает возможность за считаные секунды самостоятельно получить необходимый доступ или ресурс, просто нажав кнопку на панели управления. Это кажется мелочью, но на деле – гигантский шаг к повышению эффективности работы ИТ-систем.

Предоставление прав администратора в отношении компонентов инфраструктуры сотрудникам соотносится с примером о «битой» прошивке выше. Это работает в обе стороны – с правами доступа можно как напортачить, так и использовать их как инструмент защиты от таких инцидентов.

Второй аспект автоматизации касается борьбы с отказами через повышение стабильности и надежности ИТ-систем. Традиционно при возникновении сбоя или отказа в работе системы сотрудники ИТ-департамента начинают устранение выявленной проблемы. Это часто занимает значительное время и ведет к простоям в работе.

Однако с быстрым развитием технологий мониторинга, в том числе с использованием предиктивной аналитики на основе искусственного интеллекта (AI Ops), стало возможным предвидеть возникновение аварийных ситуаций.

Более зрелые ИТ-структуры, использующие эти технологии, могут автоматизировать процесс работы с авариями, полностью уйдя от концепции – реагируем, когда случится сбой, минимизировав человеческое вмешательство и существенно снизив вероятность простоев.

Работает это так: специальные инструменты мониторинга могут самостоятельно анализировать ситуацию. Например, замечая увеличение времени прохождения транзакций до предкризисных параметров, чтобы автоматически принимать меры по предотвращению потенциальных сбоев.

Выделение дополнительных вычислительных ресурсов, перевод работы приложения на резервный уровень до устранения проблем в основном контуре или переключение на другой инстанс – позволяет избежать не только сбоя, но и минимальной деградации качества работы сервисов, и пользователь никаких проблем не замечает.

Такие инновации особенно ценны для бизнес-критичных систем, где даже кратковременный простой может обойтись организации в колоссальные суммы. К примеру, простой системы обслуживания клиентов в банке в масштабах страны сегодня может стоить десятки, а то и сотни миллионов рублей в час.

Подход к снаряду

Первым шагом на пути к «бесчеловечным ИТ» является определение нормального режима работы цифровых систем на конкретном предприятии. Для этого необходим сбор и анализ статистических данных в течение определенного периода, обычно от одного до трех месяцев.

Этап позволяет установить базовые показатели, относительно которых вся автоматика далее будет рассчитывать отклонения, оценивая их потенциальную угрозу стабильной работе. На основе этих данных формируются сценарии реакции на возможные проблемы, что позволяет системе автоматически принимать необходимые меры без задержек.

Здесь важно учитывать и форс-мажорные ситуации: общегородские блэкауты или потери каналов связи из-за перерезанного строителями кабеля. Для таких случаев предусматривается запуск аварийных площадок с готовой инфраструктурой, которые минимизируют последствия.

Подход к реализации может существенно различаться в зависимости от уровня зрелости ИТ-инфраструктуры компании, ее масштабов и специфики бизнес-процессов. Некоторые предприятия могут опираться на готовые решения из облака (под типовые процессы и сценарии). Другим придется разрабатывать индивидуальные скрипты, держать их на своей инфраструктуре, «тюнить», развивать и дорабатывать под изменения в процессах.

Сильно упростит ситуацию готовность компании запустить подход «инфраструктура как код», используя различные оркестраторы для автоматизации процессов.

Компаниям, еще не достигшим необходимого уровня ИТ-зрелости, необходимо провести ряд мероприятий: описать все процессы, оценить уровень зрелости ландшафта, определить критические точки для автоматизации, разработать стратегию интеграции новых технологий и сопроводить процесс их внедрения.

Чтобы оценить эффективность затрат на подобные технологии – необходимо рассчитать возможные потери от аварий и простоев. Важно, чтобы бизнес оценивал возможности автоматизации не только как способ экономии ресурсов, но и как инвестиции в надежность и стабильность работы.

Первые на очереди

Что касается сфер применения, то все определяется критичностью систем, которые должны защищаться высокоавтоматизированными решениями.

Такие системы есть практически в любой отрасли: в ритейле, банковском секторе, на транспорте, в медицине, ТЭК – высокий уровень доступности и надежности ИТ-систем жизненно важен.

В целом подход наиболее актуален для крупного бизнеса (Enterprise-сегмент), где стоимость простоя настолько высока, что оправдывает инвестиции в разработку и внедрение сложных автоматизированных систем.

Главное, что подход не только сокращает риски и потери от простоев, но и открывает новые горизонты для инноваций и развития, задавая уровень требований к инструментам автоматизации.

Николай Ульрих, директор практики инфраструктурного консалтинга и информационной безопасности Axenix

39449