ИИ-инфраструктура: вызовы и перспективы
Внедрение и разработка ИИ-решений – один из главных мировых ИТ-трендов ближайшего десятилетия, который будет существенно влиять на инфраструктуру. В 2025 году объем глобального рынка инфраструктуры для задач искусственного интеллекта достиг $334 млрд., что в 2 раза больше, чем годом ранее. В свою очередь, именно доступность инфраструктуры будет определяющим фактором развития технологии. Так, более 50% инициатив в области ИИ были либо заморожены, либо полностью остановлены из-за проблем с технологической инфраструктурой. О том, как ИИ влияет на рынок ЦОД и как адаптироваться бизнесу, рассказывает Денис Хлебородов, основатель и генеральный директор компании Cloud X.
Рынок инфраструктуры сейчас: вызовы
Спрос на ИИ-инфраструктуру растет быстрее, чем ее предложение. И это несмотря на тот факт, что международный объем вводимой и планируемой мощности бьет исторические рекорды, существенная часть новых проектов ЦОДов ориентирована на ИИ-нагрузки, а более трети операторов уже запускает в своих ЦОДах обучение или инференс ИИ-моделей.
В России сегодня значительная часть существующих дата-центров не готова к ИИ-нагрузкам. Большинство действующих ЦОДов не могут выдерживать нагрузки выше 50-60 кВт на стойку, когда кластеры обучения требуют выше 100 кВт на стойку.
Ограничения для развития новых проектов ЦОДов для ИИ – дефицит мощностей в привычных локациях, высокая технологическая планка и сложности с финансированием проектов.
Перспективы развития: географическая удаленность больше не является ограничением
Дефицит мощностей под энергоемкие проекты вблизи крупных мегаполисов обуславливает расширение географии новых дата-центров. Так, свободные мощности в Москве и ближайшем Подмосковье фактически выбраны или зарезервированы на несколько лет вперед, а сетевые компании начали отказывать новым проектам в технологическом присоединении. В этих условиях крупные площадки будут неизбежно уходить туда, где возможно обеспечить стабильное электроснабжение в большом объеме и дальнейшее масштабирование, то есть в регионы с крупной генерацией. Одним из перспективных регионов является Западная Сибирь, которая располагает значительными энергетическими ресурсами, благоприятным климатом для энергоэффективного охлаждения и площадками для масштабного строительства.
Перенос ЦОДов в отдаленные регионы не следует рассматривать как технологическое ограничение, поскольку современные средства сетевого взаимодействия, протоколы передачи данных и многоуровневые механизмы кэширования позволяют компенсировать задержки на уровне архитектуры.
Таким образом, строительство новых проектов ЦОДов в регионах – технически и экономически обоснованная модель развития инфраструктуры.
ИИ-ЦОД: новая технологическая планка
ИИ радикально меняет архитектуру и инженерную инфраструктуру дата-центра и задает высокую технологическую планку. ИИ-ЦОД – это площадка, где вычислители, сеть, хранилище, электропитание и охлаждение должны проектироваться как единая система под непрерывную работу высокоплотного кластера. Главная задача такого ЦОДа – обеспечить устойчивую и экономически эффективную работу обучения и инференса без потери загрузки GPU. Ключевое значение имеют задержки и пропускная способность сети между вычислительными узлами и системами хранения, надежность ускорителей и частота отказов, скорость сохранения контрольных состояний обучения, а также соответствие топологии кластера архитектуре самой модели.
Именно этим объясняются четыре главных направления изменений в архитектуре ЦОДов для ИИ.
- Во-первых, меняется соотношение вычислителей и энергопотребления: значимым становится производительность на ватт, достигаемая как за счет совершенствования аппаратной части, так и за счет более эффективных вычислительных схем.
- Во-вторых, меняется соотношение вычислителей и охлаждения: рост плотностей ведет отрасль от воздуха к прямому жидкостному охлаждению, гибридным решениям и к погружным схемам на отдельных участках.
- В-третьих, меняется соотношение вычислителей и способов объединения: развитие идет от 100/400 Гбит/с к 800 Гбит/с и 1,6 Тбит/с, а вслед за этим – к новым оптическим решениям внутри стойки и между стойками.
- В-четвертых, меняется соотношение сети и энергопотребления: высокоскоростная вычислительная сеть становится крупным потребителем энергии.
Как ИИ изменит таксономию рынка ЦОД
Распространение ИИ изменит логику развития рынка дата-центров. Сейчас ЦОД описывают прежде всего через формат владения – корпоративный, коммерческий, операторский. В перспективе 5-10 лет на первый план выйдет их роль в цепочке вычислений, и они будут определяться тем, где происходит обучение моделей, где исполняется инференс, где обрабатываются данные с минимальной задержкой, а где обеспечиваются кэширование, маршрутизация и базовые сетевые функции. По сути, ИИ переводит рынок от относительно однородной модели ЦОД к многоуровневой архитектуре, в которой каждая площадка занимает свое место по мощности, инженерному профилю, удаленности от генерации и близости к источникам данных.
На верхнем уровне находятся Neocloud-гиперскейлеры – новый класс провайдеров, которые изначально рассчитаны на совмещение классических облачных сервисов и ИИ-суперкомпьютеров. Далее идут околограничные Near-Edge) ЦОДы, которые будут принимать на себя часть инференса, обслуживать чувствительные к задержкам цифровые сервисы, поддерживать высоконагруженные платформы данных и гибридные сценарии. На следующем уровне – граничные (Edge) ЦОДы, которые находятся рядом с источником данных и выполняют локальный инференс и вычисления, которые нельзя передавать в крупный регион. Отдельную роль сохраняют точки присутствия и локальные сетевые узлы. Это сравнительно небольшие площадки, где сосредоточены кэширование, DNS, глобальная балансировка нагрузки, CDN и сервисы связности. Наконец, на уровне заказчика будут развиваться локальные облачные модули – компактные площадки или стойки, управляемые по облачной модели и предназначенные для сценариев с повышенными требованиями к автономности, безопасности или непрерывности операций.
ИИ резко усиливает специализацию ЦОД. Обучение больших моделей и тяжелый инференс требуют огромного объема доступной мощности, предсказуемого электроснабжения, высокой плотности размещения ускорителей, развитой внутренней сетевой фабрики и сложной инженерии охлаждения. Это очень капиталоемкая и операционно сложная инфраструктура, для которой недостаточно классической модели коммерческого ЦОДа, ориентированного на сдачу стоек или залов в аренду. Здесь нужен игрок, который одновременно управляет энергетикой, сетью, облачной платформой, жизненным циклом ИИ-сервисов и распределением нагрузки между регионами.
Именно поэтому обучение моделей и тяжелый инференс с высокой вероятностью будут концентрироваться у Neocloud-провайдеров. Такие игроки способны проектировать инфраструктуру вокруг экономики вычислений, а не вокруг аренды площади как таковой.
В этих условиях выстраивание стратегии работы с инфраструктурой становится критически важным для бизнеса. Строить полностью собственную инфраструктуру для искусственного интеллекта (on-premises-only) в большинстве случаев экономически нецелесообразно – это требует крупных инвестиций в энергетику, системы охлаждения, ИИ-кластеры и высококвалифицированных сотрудников.
В перспективе наиболее выгодным вариантом для бизнеса становится модель сотрудничества с Neocloud-гиперскейлером, при которой он предоставляет основную инфраструктуру компаниям для высоких нагрузок, а собственные ЦОДы встраиваются в его экосистему как Edge-площадки.