Объединение ресурсов суперкомпьютерных центров ОИЯИ, МСЦ РАН и СПбПУ
- Заказчик:
- ОИЯИ, МСЦ РАН – филиал ФГУ ФНЦ НИИСИ РАН, ФГАОУ ВО СПбПУ
- Руководитель проекта со стороны заказчика
- Поставщик
- Группа компаний РСК
- Год завершения проекта
- 2022
- Сроки выполнения проекта
- Сентябрь, 2021 - Сентябрь, 2022
- Масштаб проекта
- 1132 человеко-часа
- Цели
- Целью проекта является создание объединенной масштабируемой научно-исследовательской суперкомпьютерной инфраструктуры на базе Национальной исследовательской компьютерной сети России (НИКС). В настоящее время в эту инфраструктуру входят суперкомпьютер «Говорун» (ОИЯИ) и суперкомпьютерные комплексы Межведомственного суперкомпьютерного центра Российской академии наук и Санкт-Петербургского политехнического университета Петра Великого. Созданная инфраструктура позволяет участникам расширять свои локальные вычислительные мощности, обеспечивать доступ к средствам хранения и обработки больших объемов данных, к распределенным хранилищам данных (датахабам), а также использовать мощности друг друга в случаях пиковых нагрузок. Такая инфраструктура позволяет существенно ускорить достижение научно-технических результатов в исследованиях и разработках российских научных коллективах и инновационных компаниях, а также востребована для задач класса мегасайнс.
Дополнительно:Масштабируемая научно-исследовательская суперкомпьютерная инфраструктура является исследовательской инфраструктурой нового уровня и обеспечивает:· существенное ускорение достижения научно-технических результатов в исследованиях и разработках российских научных коллективах и инновационных компаниях;
· объединение высокопроизводительных вычислительных ресурсов в интегрированную территориально распределённую сеть суперкомпьютерных центров;· создание экосистемы профессионального сообщества пользователей суперкомпьютерными ресурсами с помощью организации коллаборативных исследований в университетах, лабораториях, научно-исследовательских институтах и на базе промышленных предприятий;
· совместное развитие средств хранения и обработки больших объемов данных, развитие распределенного хранилища данных (датахаба), объединяющего мультидисциплинарные репозитории данных;· создание облачных цифровых сервисов для доступа к суперкомпьютерным ресурсам, сервисов для машинного обучения и аналитики больших данных, распределенных витрин данных для пользователей научных коллабораций и образовательных организаций;
· предоставление пользователям набора конфигурируемых сервисов, позволяющих гибко настраивать цифровую среду и виртуальные рабочие места под уникальные требования пользовательских задач.
Уникальность проекта
Для передачи данных между СКЦ создана виртуальная частная сеть на основе инфраструктуры Национальной исследовательской компьютерной сети (НИКС) нового поколения. Это позволило обеспечить защищенную передачу данных со скоростями 10-100 Гбит/с между любыми двумя центрами — участниками проекта,НИКС уже объединяет 93% СКЦ науки и образования, 60% центров коллективного пользования и 52% уникальных научных установок во всех федеральных округах РФ, давая значительный потенциал для масштабирования проекта.
В итоге это позволяет обеспечить цифровую связность научного потенциала страны путем объединения ведущих научных организаций, центров коллективного пользования и уникальных научных установок с помощью НИКС.
В 2022 году успешно завершен первый совместный эксперимент по использованию объединенной инфраструктуры для решения задач мегасайнc-проекта NICA. Было запущено 3000 задач, все выполнены успешно. Сгенерировано порядка 3 миллионов событий. Полученные данные перемещены в ОИЯИ.
- Проект решает задачи импортозамещения
- Да
- Использованное ПО
В ходе реализации проекта активно использовалась вертикально-интегрированная линейка инфраструктурных программных продуктов:
1. ПО мониторинга и управления «РСК БазИС», которое выполняет следующие функции:
− осуществление мониторинга вычислительных узлов с функционалом аварийного отключения в случае обнаружения критических неисправностей (таких как перегрев ВУ);
− осуществляет сбор показателей функционирования компонент коммуникационной и транспортной сети;
− осуществляет сбор показателей производительности вычислительных узлов – загруженность процессоров и оперативной памяти;
− хранение отслеживаемых показателей с возможностью просмотра статистики за заданный интервал времени (не менее одного года);
− сбор показания интегрального индикатора состояния ВУ и отображение на геометрическом виде стойки вычислителя;
− отображение статуса системы обнаружения протечек по датчикам контроля влажности на вычислительных узлах и отображение на геометрическом виде стойки вычислителя;
− отображение эффективности использования выделенных ресурсов через планировщика SLURM пользователю кластера для определенной задачи в виде показателя средней загрузки выделенных пользователем ЦП (%);
− отображение доступности ВУ по вычислительной сети и сети управления на геометрическом стойки вычислителя.
В состав программного обеспечения для управления суперкомпьютером входят:
− система управления профилями и средой окружения пользователей;
− система управления программным обеспечением узлов, включая установку и обновление операционной системы и прикладных программных пакетов;
− планировщик SLURM;
− программные средства безопасного удаленного доступа к суперкомпьютеру;
− средства параллельного администрирования и управления суперкомпьютером.
2. Система управления системой хранения данными РСК Storage-on-Demand, обеспечивающая:
− конфигурацию логических экземпляров систем хранения с использованием дисков, установленных внутри вычислительных узлов, предназначенных для выполнения задач пользователя;
− настройку параметров и иерархии экземпляра системы хранения;
− мониторинг ключевых параметров системы хранения;
− запуск задач пользователя, на узлах, предоставляющих диски для использования другими ВУ, происходит автоматически через систему управления задачами;
− управление группами ВУ, выступающими в роли клиентов для систем хранения, а именно;
− автоматическое монтирование и отмонтирование систем хранения к группе ВУ-клиентов, после вносимых изменений в конфигурацию;
− графический интерфейс для создания статических систем хранения по запросу с возможностью верификации схемы будущей системы хранения;
− ручную и автоматическую замену дисков в деградированных рейд массивах;
− возможность подключения дисков по сети с поддержкой RDMA и сети Ethernet по протоколам NVMe-over-Fabrics и NVMe-over-TCP соответственно.
3. Система управления данными РСК Data Management, которая также основывается на платформе «РСК БазИС» и управляет жизненным циклом данных в распределенных средах, а именно осуществляет:
- управление контейнерами для данных – датасетами, предоставление программных интерфейсов по работе с системой Data Management для разработчиков прикладных пакетов;
- определение протокола декларативного описания правил автоматического движения данных;
- управление механизмами движения данных;
- интеграция с системой хранения данных РСК Storage-on-Demand.
- Сложность реализации
Выполнение комплексного проекта интеграции нескольких независимых вычислительных центров само по себе является задачей с крайне высоким уровнем сложности, в том числе из-за организационных и технологических различий в их функционировании. Поэтому отдельно хочется отметить, что данный проект был выполнен по принципу конфедерации, т.е. предоставлению IT-ресурсов между участниками проекта друг другу без централизации управления, и как следствие, без создания единого «командного центра».
И именно использование современных компонуемых аппаратных платформ и трех уровней программных систем «РСК БазИС», плотно интегрированных друг с другом, позволили реализовать кардинально новый взгляд на управление жизненным циклом ЦОД, перейдя от жестко заданных аппаратных конфигураций к гибким программно-определяемым средам. А применение подхода Data Management позволило перейти к инфраструктуре, управляемой данными, и, в результате, радикально ускорить время проведения виртуального эксперимента MPD (Multi-Purpose Detector) в более чем два раза, с 25 до 10 дней.
- Описание проекта
- В рамках проекта осуществлено объединение вычислительных ресурсов и ресурсов хранения и обработки данных трех суперкомпьютерных центров – суперкомпьютера «Говорун» в ОИЯИ, Межведомственного суперкомпьютерного центра Российской академии наук и СКЦ «Политехнический» в СПбПУ. В основу суперкомпьютера «Говорун» в ОИЯИ положен гиперконвергентный подход к построению вычислительного комплекса, позволяющий создавать вычислительные среды, программно-аппаратная конфигурация которых оптимизирована для конкретных задач пользователей, без изменения аппаратуры самих вычислительных узлов. Гиперконвергентность позволяет «оркестрировать» вычислительные ресурсы и элементы хранения данных и создавать, используя программное обеспечение РСК БазИС, вычислительные системы, конфигурации которых создаются по требованию, с учетом потребностей пользовательских приложений. Помимо повышения эффективности решения пользовательских задач разных типов, это свойство позволяет повысить уровень конфиденциальности работы с данными, избежать системных ошибок, возникающих при пересечении ресурсов для различных пользовательских задач. В качестве основного инструмента для работы с Большими данными на СК «Говорун» была разработана и внедрена иерархическая система обработки и хранения данных, представляющая собой единую централизованно управляемую систему и имеющую несколько уровней хранения данных - очень горячие данные, горячие данные и теплые данные. Такой инструмент необходим прежде всего для развивающегося в ОИЯИ мегапроекта NICA. Гибкая, программно-определяемая вычислительная архитектура СК «Говорун» и развитая иерархическая система обработки и хранения данных позволила выполнить ряд сложных ресурсоемких расчетов в области решеточной квантовой хромодинамики для исследования свойств адронной материи при высоких плотностях энергии и барионном заряде и в присутствии сверхмаксимальных электромагнитных полей, качественно повысить эффективность моделирования динамики столкновений релятивистских тяжелых ионов, ускорить процесс генерации и реконструкции событий для проведения экспериментов в рамках реализации мегапроекта NICA, провести расчеты радиационной безопасности экспериментальных установок ОИЯИ и повысить эффективность решения прикладных задач. В текущую конфигурацию СК «Говорун» входят вычислительные модули, содержащие GPU и CPU компоненты, а также иерархическая система обработки и хранения данных. Суммарная пиковая производительность суперкомпьютера «Говорун» составляет 1,1 Пфлопс для расчетов с двойной точностью и скоростью чтения/записи 300 Гб в секунду для иерархической системы обработки и хранения данных и объемом хранения 8 Пбайт.
МСЦ РАН является одним из крупнейших суперкомпьютерных центров в сфере науки и образования в России, он обеспечивает вычислительными ресурсами более 200 научных коллективов, проводящих исследования в различных областях физики, химии, медицины, биологии, астрономии, климатологии, математики и других с помощью суперкомпьютерного моделирования. МСЦ РАН постоянно поддерживает и развивает широкую линейку самых современных сегментов вычислительных ресурсов, базирующихся на различных архитектурах. Это дает возможность исследователям гибко получать в пользование разные по характеристиках вычислительные ресурсы и находить для себя оптимальные конфигурации для решения их конкретных задач. В настоящее время вычислительные ресурсы МСЦ РАН превышают уровень производительности в 2 Пфлопс, что позволяет научным коллективам и организациям РАН решать самые сложные задачи математического моделирования и работать с большими данными. При этом объем системы обработки и хранения данных составляет 2 Пбайта (из них 0,75 Пбайт — высокоскоростная программно-определяемая система хранения для «горячих данных»).
Суперкомпьютерный центр СПбПУ ориентирован на решение междисциплинарных естественно-научных задач и поддержку проектирования сложных технических систем для высокотехнологичных наукоемких секторов науки и промышленности. Суммарная пиковая производительность вычислительных ресурсов Суперкомпьютерного центра СПбПУ на базе двух кластерных систем, созданных и установленных специалистами группы компаний РСК, превышает 1,5 Пфлопс. Объем системы обработки и хранения данных составляет 3 Пбайт.
Объединение ресурсов трех суперкомпьютерных центров позволило получить доступ к унифицированной вычислительной среде с суммарной пиковой производительностью порядка 4,6 Пфлопс и общим объемом систем хранения данных 13 Пбайт.
ОИЯИ, МСЦ РАН и СПбПУ объединили свои суперкомпьютерные инфраструктуры и системы хранения данных, что позволило: - разработать передовые подходы и методы применения распределенных суперкомпьютерных вычислений для научного поиска, инженерных и образовательных задач; - на основе разработанных подходов и методов создать цифровые суперкомпьютерные сервисы, сервисы машинного обучения и аналитики больших данных, распределенных витрин данных для пользователей научных коллабораций и образовательных организаций; - предоставить пользователям набор гибко конфигурируемых сервисов, позволяющих настраивать цифровую среду под уникальные требования пользовательских задач. - повысить качество подготовки научных кадров высшей квалификации, в том числе с новыми цифровыми компетенциями в сфере сквозных цифровых технологий; - реализовывать инновационные образовательные проекты.
- География проекта
- Дубна (Московская область), Москва, Санкт-Петербург. Реальные перспективы расширения за счет подключения суперкомпьютерных центров в Новосибирске и из других регионов РФ.