Суперкомпьютер «ГОВОРУН»

Заказчик
Объединённый Институт Ядерных Исследований (ОИЯИ)
Руководитель проекта со стороны заказчика
ИТ-поставщик
РСК
Год завершения проекта
2018
Сроки выполнения проекта
Октябрь, 2017 — Март, 2018
Масштаб проекта
600 человеко-часов
100 автоматизированных рабочих мест
Цели
Целью проекта являлось создание гетерогенной вычислительной системы, т.е. системы содержащей несколько типов вычислительных архитектур, для кардинального ускорения исследований, проводимых в рамках научной программы Объединенного института ядерных исследований, а также научных организаций и университетов стран-участниц ОИЯИ.

Уникальность проекта

CPU часть суперкомпьютера «ГОВОРУН» ОИЯИ – первое в мире гиперконвергентное решение со 100% жидкостным охлаждением на «горячей воде», оснащенный системой хранения данных на основе твердотельных дисков Intel SSD. Он занял 9-е место в мировом рейтинге IO500 (июнь 2018 г.) для систем хранения данных HPC-класса.
Гиперконвергентный серверный узел «РСК Торнадо» хорошо сбалансирован для решения самых различных вычислительных задач и может быть составной частью системы хранения данных, формируемой «по требованию» на базе различных файловых систем (включая создание разделов на базе Lustre) и обеспечивающей интеграцию с различными планировщиками HPC-задач. На базе одного узла может быть создана система хранения объемом до 24 ТБ (до 12 твердотельных дисков) с высокой пропускной способностью и низкой латентностью.
Новый суперкомпьютер ОИЯИ позволят проводить ресурсоемкие, массивно-параллельные расчеты для решения различных научных задач, в том числе для реализации мегасайенс-проекта проекта NICA.
Использованное ПО
Программный стек «РСК БазИС» для мониторинга и управления является открытой и легко расширяемой платформой, созданной на основе ПО с открытым исходным кодом и микроагентной архитектуры. Эта платформа включает средствами развертывания, управления и поддержки, в том числе поддержку территориально-распределенных систем. Она позволяет осуществлять управление как отдельными узлами, так и всем решением в целом, включая инфраструктурные компоненты. Все элементы комплекса (вычислительные узлы, блоки питания, модули гидрорегулирования и др.) имеют встроенный модуль управления, что обеспечивает широкие возможности для детальной телеметрии и гибкого управления. Конструктив шкафа позволяет заменять вычислительные узлы, блоки питания и элементы гидравлической системы (при условии применения резервирования) в режиме горячей замены без прерывания работоспособности комплекса. Большинство компонентов системы (таких, как вычислительные узлы, блоки питания, сетевые и инфраструктурные компоненты и т.д.) – это программно-определяемые компоненты, позволяющие существенно упростить и ускорить как начальное развертывание, так и обслуживание, и последующую модернизацию системы. Жидкостное охлаждение всех компонентов обеспечивает длительный срок их службы.
Описание проекта
Суперкомпьютер «ГОВОРУН», названный в честь член-корреспондента АН СССР Николая Николаевича Говоруна, с именем которого с 1966 года связано развитие информационных технологий в ОИЯИ, является гетерогенной вычислительной платформой, состоит из классической x86 CPU компоненты на базе процессоров Intel Xeon Scalable, компоненты с процессорами Intel Xeon Phi (KNL) и GPU компоненты, что позволяет проводить ресурсоемкие, массивно-параллельные расчеты для решения широкого спектра научных задач ОИЯИ. GPU-компонента суперкомпьютера включает в себя 5 серверов NVIDIA DGX-1. В каждом сервере установлено 8 GPU NVIDIA Tesla V100, основанных на самой современной архитектуре NVIDIA Volta. Кроме того, один сервер NVIDIA DGX-1 имеет 40 000 ядер CUDA, которые по своей вычислительной мощности эквивалентны 800 высокопроизводительным центральным процессорам. Процессоры Tesla V100 в DGX-1 работают в пять раз быстрее, чем продукты с архитектурой Pascal. Здесь используется целый ряд новых технологий, в том числе шина NVLink 2.0 с пропускной способностью до 300 Гбит/с. Поставку оборудования и пуско-наладочные работы в рамках создания кластера с GPU-компонентой на базе NVIDIA выполнил системный интегратор IBS Platformix. В состав нового суперкомпьютера входит высокоплотное и энергоэффективное решение «РСК Торнадо» с прямым жидкостным охлаждением на «горячей воде», разработанное специалистами российской группы компаний РСК. Основу вычислительных узлов составили серверные продукты Intel: самые мощные 72-ядерные серверные процессоры Intel® Xeon Phi™ 7290, процессоры семейства Intel® Xeon® Scalable (модели Intel® Xeon® Gold 6154) и новейшие высокоскоростные твердотельные диски Intel® SSD DC P4511 с интерфейсом NVMe емкостью 1 Тбайт. Для высокоскоростной передачи данных между вычислительными узлами суперкомпьютера используется передовая технология коммутации Intel® Omni-Path, обеспечивающая скорость неблокируемой коммутации до 100 Гбит/c. В составе решения применяются коммутаторы Intel Omni-Path Edge Switch 100 Series со 100% жидкостным охлаждением, что позволяет обеспечить высокую эффективность работы системы охлаждения в режиме «горячая вода» и наиболее низкую совокупную стоимость владения. Кроме того, в суперкомпьютере «Говорун» в ОИЯИ используются новые универсальные вычислительные шкафы «РСК Торнадо» с рекордной энергетической плотностью и системой прецизионного жидкостного охлаждения, сбалансированной для постоянной работы с высокотемпературным хладоносителем (до +63 °С на входе в вычислительный шкаф). В соответствии с условиями размещения оборудования для ОИЯИ был выбран оптимальный режим работы вычислительного шкафа при постоянной температуре хладоносителя +45 °С на входе в вычислительные узлы (с пиковым значением до +57 °С). Работа в режиме «горячая вода» для данного решения позволила применить круглогодичный режим free cooling (24x7x365), используя только сухие градирни, работающие при температуре окружающего воздуха до +50 °С, а также полностью избавиться от фреонового контура и чиллеров. В результате среднегодовой показатель PUE системы, отражающий уровень эффективности использования электроэнергии, составляет менее чем 1,05. Суммарная по всем компонентам пиковая производительность составляет 523 Tflop/s для вычислений с двойной точностью, производительность по тесту Linpack составляет 324 Tflop/s. В настоящий момент суперкомпьютер используется для решения задач, требующих массивно-параллельных расчетов в различных областях физики, биофизики и прикладных областях, в частности, в решеточной квантовой хромодинамике для исследования свойств адронной материи при высокой плотности энергии и барионного заряда и в присутствии сверхсильных электромагнитных полей, моделирования динамики столкновений релятивистских тяжелых ионов, расчет джозефсоновских переходов, проектировании и оптимизации криогенной ячейки, исследовании динамики многочастичных бозонных систем в магнито-оптических ловушках, моделирование структуры и пропускного механизма глутаматного рецептора NMDA, математическое моделирование взаимодействий антипротонов с протонами и ядрами в вычислительной среде будущего эксперимента PANDA на ускорителе FAIR – PandaRoot, с использованием генераторов DPM, FTF и UrQMD+SMM, развиваемых в ОИЯИ и представляющих интерес для эксперимента NICA-MPD, разработка параллельных алгоритмов компьютерной томографии для рентгеновского микротомографа MARS (Medipix All Resolution System), расчет поправок для матричного элемента в первом борновском приближении в случае реакции прямой ионизации атома гелия быстрым протоном с учетом различных моделей конечного состояния и др.
География проекта
Суперкомпьютер «ГОВОРУН» расположен в Международной¬ межправительственной организации Объединенный институт ядерных исследований, Лаборатории информационных технологий, г. Дубна, Московская обл., Россия. Пользователями суперкомпьютера могут стать ученые из 18 государств-членов ОИЯИ.
Дополнительные презентации:
Govorun_buklet.pdf
image005.jpg
image006.jpg
Коментарии: 3

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Татьяна Орлова
    Рейтинг: 89
    ЗАО "ЕС-лизинг"
    Замдиректора по инновационной и экспериментальной деятельности, консультант по управленческим дисциплинам
    05.12.2018 12:08

    Молодцы. Очень хотелось бы посмотреть на какое-нибудь практическое применение в конечном виде.

  • Александр Артюхов
    Рейтинг: 95
    АО "Организация "Агат"
    Руководитель проекта
    14.12.2018 16:53

    Впечатляет. На сколько в пике удавалось загрузить реальными задачами подсистемы "ГОВОРУНа"?

  • Александр Балабанов
    Рейтинг: 310
    Айсберри
    CDO
    21.12.2018 22:43

    Владимир приветствую! Мощное решение - один вопрос: вижу реальное научное применение - для практического бизнеса возможно ли применение данного решения?

Предметная область
Отрасль
Управление