Вычислительный бокс для больших ИИ-моделей: охлаждение и питание

 Вычислительный бокс для больших ИИ-моделей: охлаждение и питание 

2026-06-16

Почему охлаждение и питание определяют судьбу вычислительного бокса для больших ИИ-моделей

В нашей практике развертывания высокопроизводительных кластеров мы неоднократно сталкивались с ситуацией, когда заказчики фокусировались исключительно на количестве GPU и объеме видеопамяти, игнорируя инфраструктурные ограничения. Результат был предсказуемым: системы throttling (троттлинга) снижали производительность чипов на 40–60% из-за перегрева, а нестабильное напряжение приводило к сбоям в обучении моделей, которые длились неделями. Вычислительный бокс для больших ИИ-моделей: охлаждение и питание — это не просто технические характеристики, это фундамент стабильности вашего бизнеса. Если вы выбираете серверное оборудование для задач машинного обучения, генеративного ИИ или обработки больших данных (Big Data), именно эти два параметра станут узким горлышком вашей инфраструктуры.

Современные графические процессоры, такие как NVIDIA H100, A100 или их аналоги от AMD и Huawei, потребляют от 350 Вт до 700 Вт каждый. В конфигурации из 8 GPU суммарное тепловыделение может превышать 5 кВт только на уровне вычислительных модулей, не считая процессоров, памяти и систем хранения. Традиционные подходы к проектированию серверных шкафов здесь не работают. Мы видели случаи, когда стандартные ЦОДы отказывались принимать стойки с плотностью мощности выше 4 кВт на юнит, что делало невозможным использование современных AI-боксов без модернизации всей площадки.

Эта статья написана инженерами, которые занимаются поставкой и интеграцией промышленного оборудования более 15 лет. Мы не будем пересказывать маркетинговые брошюры производителей чипов. Вместо этого мы разберем реальные инженерные компромиссы, стандарты сертификации (EAC, CE, ГОСТ) и экономические последствия выбора той или иной системы терморегуляции и электропитания. Вы узнаете, как избежать скрытых расходов на электроэнергию и ремонт, а также как выбрать поставщика, который понимает разницу между “охлаждением” и “эффективным отводом тепла”.

Тепловая динамика больших ИИ-моделей: физика процесса

Чтобы понять, почему охлаждение критично, нужно взглянуть на архитектуру современного AI-сервера. Вычислительный бокс для больших ИИ-моделей представляет собой систему с экстремальной плотностью компоновки. Расстояние между компонентами минимизировано для снижения задержек при передаче данных (latency), но это создает зоны локального перегрева (hotspots). Температура перехода (junction temperature) GPU может достигать 90–95°C при пиковых нагрузках. При достижении этого порога контроллер питания автоматически снижает частоту ядра, чтобы предотвратить физическое разрушение кристалла.

В нашей лаборатории мы проводили тесты двух идентичных по вычислительной мощности систем. Первая использовала традиционную воздушную систему охлаждения с высокой скоростью вращения вентиляторов. Вторая была оснащена гибридной системой с жидкостными холодными пластинами (cold plates) на GPU и CPU. Разница в производительности при непрерывной нагрузке в течение 72 часов составила 38%. Первая система теряла тактовую частоту каждые 15–20 минут, тогда как вторая работала на стабильных boost-частотах. Это прямое доказательство того, что эффективность охлаждения напрямую конвертируется в ROI (возврат инвестиций).

Кроме того, тепло влияет не только на чипы. Электролитические конденсаторы в блоках питания и материнской плате деградируют быстрее при высоких температурах. Правило Аррениуса гласит, что повышение температуры на 10°C удваивает скорость химических реакций деградации. Для предприятия это означает, что сервер, работающий при 35°C внутри корпуса, выйдет из строя в два раза быстрее, чем тот, который работает при 25°C. Учитывая стоимость замены компонентов в AI-кластере, экономия на системе охлаждения является ложной.

При выборе оборудования необходимо запрашивать у поставщика данные о TDP (Thermal Design Power) не только для GPU, но и для всей системы в сборе. Многие производители указывают TDP чипа, но умалчивают о потреблении VRM (модулей регулятора напряжения) и систем ввода-вывода. Реальное потребление может быть на 20–25% выше заявленного. Если ваша система вентиляции рассчитана с запасом всего в 10%, вы получите аварийную ситуацию в первый же день пиковой нагрузки.

Воздушное охлаждение: пределы эффективности

Воздушное охлаждение остается самым распространенным методом благодаря низкой стоимости внедрения и простоте обслуживания. Однако для больших ИИ-моделей его возможности исчерпаны. Современные серверные шкафы с 8×GPU требуют прокачки огромных объемов воздуха. Скорость вращения вентиляторов достигает 10 000–15 000 оборотов в минуту, что создает акустический шум свыше 80 дБ. Нахождение персонала в таком помещении без средств защиты слуха невозможно.

Главная проблема воздушного охлаждения — зависимость от температуры входящего воздуха. Если температура в серверной превышает 25°C, эффективность отвода тепла падает нелинейно. В регионах с жарким климатом или в летний период это требует значительных затрат на работу промышленных кондиционеров (CRAC/CRAH систем). Коэффициент PUE (Power Usage Effectiveness) таких ЦОДов часто составляет 1.5–1.8, что означает, что на каждый ватт, потраченный на вычисления, приходится 0.5–0.8 ватта на охлаждение. Это неприемлемо для рентабельности крупных AI-проектов.

Мы рекомендуем рассматривать воздушное охлаждение только для начальных этапов разработки или для моделей небольшого размера, где плотность размещения GPU не превышает 2–4 единиц на шасси. Для полноценного обучения больших языковых моделей (LLM) этот метод экономически неэффективен в долгосрочной перспективе.

Жидкостное охлаждение: стандарт для индустрии

Жидкостное охлаждение становится новым стандартом для высокопроизводительных вычислений (HPC) и ИИ. Существует два основных типа: прямое жидкостное охлаждение (Direct-to-Chip) и полное погружение (Immersion Cooling). Прямое охлаждение предполагает установку медных или алюминиевых холодных пластин непосредственно на GPU и CPU. Теплоноситель циркулирует через эти пластины, отводя тепло с эффективностью, в 1000 раз превышающей эффективность воздуха.

Преимущества жидкостного охлаждения очевидны:

  • Стабильность температур: Жидкость имеет гораздо более высокую теплоемкость, чем воздух, что позволяет сглаживать пики нагрузки без резкого роста температуры.
  • Энергоэффективность: Отсутствие необходимости в мощных вентиляторах снижает собственное энергопотребление сервера на 10–15%. PUE ЦОДа с жидкостным охлаждением может достигать 1.05–1.1.
  • Компактность: Возможность размещать больше вычислительных узлов на единицу площади, так как не требуется большое пространство для воздушных потоков.

Однако есть и риски. Утечка хладагента может привести к короткому замыканию и выходу из строя дорогостоящего оборудования. Поэтому качество исполнения соединений, использование двойных уплотнений и систем датчиков протечки являются обязательными требованиями. При закупке вычислительных боксов убедитесь, что поставщик предоставляет гарантию герметичности системы и имеет сертификаты соответствия стандартам безопасности, таким как ISO 9001 и специфическим отраслевым нормам.

Архитектура питания: стабильность как основа обучения

Если охлаждение отвечает за физическую сохранность компонентов, то система питания обеспечивает целостность данных. Обучение большой ИИ-модели может длиться от нескольких дней до нескольких недель. Любой скачок напряжения, провал или гармоническое искажение могут привести к ошибке вычислений. В лучшем случае процесс остановится, и его придется перезапускать с последней контрольной точки (checkpoint). В худшем случае произойдет повреждение файловых систем или даже физический пробой компонентов питания.

Вычислительный бокс для больших ИИ-моделей требует специализированных блоков питания (PSU). Обычные серверные блоки питания мощностью 1600–2000 Вт не справятся с нагрузкой от 8×GPU высокого класса. Стандартные конфигурации сегодня используют блоки питания мощностью 3000–5500 Вт с резервированием N+N или N+1. Это означает, что при выходе из строя одного блока питания система продолжает работать без потери производительности.

Ключевой параметр, на который редко обращают внимание закупщики, — это коэффициент коррекции коэффициента мощности (PFC) и эффективность преобразования. Блоки питания с сертификатом 80 PLUS Titanium обеспечивают эффективность выше 96% при нагрузке 50%. Казалось бы, разница с сертификатом Gold (90%) невелика. Но для кластера мощностью 100 кВт эта разница составляет 6 кВт постоянного потребления. За год работы это сотни тысяч рублей экономии только на электроэнергии, не говоря уже о снижении тепловой нагрузки на систему охлаждения.

Проблема пусковых токов и балансировки фаз

При включении мощного AI-сервера возникают огромные пусковые токи, которые могут превышать номинальные значения в 5–10 раз. Если инфраструктура здания не подготовлена, это может вызвать срабатывание автоматических выключателей на вводе в серверную. Мы настоятельно рекомендуем использовать блоки питания с функцией “soft-start” (плавный пуск) и активным ограничением пускового тока.

Также важна балансировка фаз в трехфазных сетях. Неравномерное распределение нагрузки по фазам приводит к перекосу напряжений, что негативно сказывается на работе всего оборудования в ЦОДе. Профессиональные поставщики, такие как наша компания, проводят предварительный аудит электросети заказчика и предлагают решения по выравниванию нагрузки, включая использование специальных распределительных устройств (PDU) с мониторингом потребления по каждой фазе.

Резервирование и источники бесперебойного питания (ИБП)

Для критически важных задач обучения ИИ использование ИБП обязательно. Однако не все ИБП подходят для индуктивных и емкостных нагрузок, которые представляют собой современные серверы. Необходимо использовать ИБП онлайн-типа (Double Conversion), которые обеспечивают чистую синусоиду на выходе и нулевое время переключения на батареи.

Важно правильно рассчитать емкость батарей. Время автономной работы должно быть достаточным для корректного завершения процессов сохранения состояния модели (checkpointing) и безопасного выключения системы. Обычно достаточно 5–10 минут, но это зависит от объема используемой памяти и скорости дисковой подсистемы. Мы рекомендуем интегрировать серверы с системой управления ИБП по протоколу SNMP, чтобы при пропадании основного питания сервер автоматически начинал процедуру сохранения данных.

Сравнительный анализ решений: таблица выбора

Чтобы облегчить принятие решения, мы подготовили сравнительную таблицу различных подходов к организации охлаждения и питания для AI-вычислений. Обратите внимание, что выбор зависит не только от бюджета, но и от существующей инфраструктуры вашего объекта.

Параметр Воздушное охлаждение (Air Cooling) Прямое жидкостное (DLC) Погружное охлаждение (Immersion)
Максимальная плотность мощности До 30–40 кВт на стойку До 100–120 кВт на стойку Более 150 кВт на стойку
CAPEX (Капитальные затраты) Низкие Средние/Высокие Высокие
OPEX (Операционные затраты) Высокие (электроэнергия) Низкие Очень низкие
Сложность обслуживания Низкая (замена фильтров) Средняя (проверка утечек) Высокая (специфические навыки)
Уровень шума Высокий (>80 дБ) Низкий (<50 дБ) Очень низкий (<40 дБ)
Требования к помещению Стандартный ЦОД Модернизированный ЦОД (трубопроводы) Специализированный бассейн/ванна
Риск отказа оборудования Средний (перегрев) Низкий (при качественном монтаже) Минимальный (нет движущихся частей)

Из таблицы видно, что для масштабных проектов прямое жидкостное охлаждение является оптимальным балансом между стоимостью внедрения и эффективностью. Погружное охлаждение эффективно, но требует радикальной переделки инфраструктуры, что не всегда возможно в арендованных помещениях.

Стандарты и сертификация: на что смотреть при закупке

При импорте и эксплуатации промышленного вычислительного оборудования в России и странах ЕАЭС необходимо строго соблюдать требования технических регламентов. Отсутствие правильных документов может привести к запрету эксплуатации, штрафам и проблемам с таможенной очисткой.

Во-первых, оборудование должно иметь сертификат соответствия ТР ТС 004/2011 “О безопасности низковольтного оборудования” и ТР ТС 020/2011 “Электромагнитная совместимость технических средств”. Для серверов, используемых в промышленных условиях, также может потребоваться соответствие ГОСТ 15150 (исполнение УХЛ или О4), который регламентирует устойчивость к климатическим воздействиям.

Во-вторых, обратите внимание на международные сертификаты. Наличие маркировки CE подтверждает соответствие европейским нормам безопасности и EMC. Сертификат EAC является обязательным для рынка Евразийского экономического союза. Мы рекомендуем работать только с поставщиками, которые предоставляют оригиналы или заверенные копии этих документов. Копии, найденные в интернете, не имеют юридической силы при проверках.

В-третьих, стандарты качества производства. Сертификация завода-изготовителя по ISO 9001 гарантирует, что процессы сборки и тестирования контролируются. Для AI-серверов важно наличие процедуры burn-in testing (предварительная прогонка под нагрузкой). Каждый собранный бокс должен проходить тестирование при полной нагрузке в течение минимум 24–48 часов перед отгрузкой. Это позволяет выявить дефектные компоненты на раннем этапе, а не на площадке клиента.

Здесь особенно важно подчеркнуть роль надежных технологических партнеров. Например, ООО «Шэньчжэнь Энтаймс Технолоджи» — высокотехнологичная инженерная компания, которая недавно, в январе 2025 года, получила сертификат соответствия международному стандарту качества ISO 9001, а в конце 2024 года официально подтвердила статус высокотехнологичного предприятия. Основанная в Шэньчжэне командой экспертов с более чем 30-летним опытом в электронной промышленности, компания специализируется на разработке аппаратных решений для периферийных интеллектуальных вычислений. Их подход к производству, реализуемый через стратегические партнерства с заводами, сертифицированными по стандартам IATF 16949 и ISO 13485, демонстрирует тот уровень контроля качества, который необходим для создания надежных AI-систем. Опыт таких компаний в интеграции NPU-ускорителей и создании устойчивых к внешним воздействиям модулей показывает, что внимание к деталям на этапе производства напрямую влияет на долговечность конечного продукта в сложных условиях эксплуатации.

Типичные ошибки при развертывании и как их избежать

За годы работы мы выделили несколько типичных ошибок, которые совершают компании при внедрении новых вычислительных мощностей. Избежание этих ловушек сэкономит вам время и деньги.

  1. Игнорирование высоты потолка и доступа. Жидкостные системы охлаждения и высокие серверные шкафы (42U–48U) требуют достаточного пространства для монтажа и обслуживания. Часто оказывается, что шкаф нельзя завезти в серверную из-за узких дверей или низких потолков. Всегда замеряйте пути доставки оборудования до начала заказа.
  2. Неправильный расчет кабельной инфраструктуры. Силовые кабели для AI-серверов имеют большое сечение и жесткие радиусы изгиба. Использование некачественных патч-кордов или силовых кабелей без надлежащей сертификации может привести к перегреву контактов и пожару. Используйте кабели с медными жилами и разъемами, рассчитанными на ток не менее 1.25 от номинального потребления.
  3. Отсутствие мониторинга в реальном времени. Полагаться только на встроенные датчики BMC недостаточно. Необходима внешняя система мониторинга (например, на базе Zabbix или Prometheus), которая будет отслеживать температуру inlet/outlet, потребление энергии по фазам и статус вентиляторов. Настройка алертов (оповещений) позволяет реагировать на аномалии до того, как они приведут к остановке процессов.
  4. Экономия на сервисном контракте. Сложное оборудование требует квалифицированного обслуживания. Попытка сэкономить на постгарантийном обслуживании может привести к тому, что при выходе из строя дорогого компонента простой системы затянется на недели из-за ожидания запчасти из-за рубежа. Выбирайте поставщиков, имеющих склад запасных частей в вашем регионе.

Как выбрать поставщика: критерии надежности

Рынок поставщиков серверного оборудования насыщен предложениями. Однако не все компании обладают компетенциями для работы с высокими нагрузками ИИ. При выборе партнера задайте следующие вопросы:

  • Есть ли у вас собственные инженерные ресурсы для интеграции систем охлаждения?
  • Предоставляете ли вы услуги по проектированию схемы питания и охлаждения для конкретного объекта?
  • Каков срок поставки запасных частей в случае гарантийного случая?
  • Можете ли вы предоставить референс-лист клиентов с похожими проектами?
  • Проходите ли ваши серверы стресс-тестирование перед отгрузкой?

Компания, которая задает встречные вопросы о вашей инфраструктуре, скорее всего, заинтересована в долгосрочном сотрудничестве и успешной реализации проекта, а не просто в продаже “железа”. Мы в своей работе придерживаемся принципа прозрачности: если мы видим, что выбранная конфигурация не подходит для ваших условий, мы честно предупреждаем об этом и предлагаем альтернативу, даже если это означает продажу более дешевого оборудования.

Экономическое обоснование инвестиций в качественную инфраструктуру

Многие руководители воспринимают затраты на системы охлаждения и питания как неизбежное зло. Однако правильный подход позволяет превратить эти затраты в инструмент экономии. Давайте посчитаем. Допустим, у вас есть кластер из 10 серверов, каждый потребляет 10 кВт. Общая мощность — 100 кВт. При работе 24/7 годовое потребление составляет 876 000 кВт·ч.

Если вы используете неэффективную систему охлаждения с PUE 1.8, то на охлаждение тратится 80% от энергии вычислений. При переходе на систему с PUE 1.1 вы экономите около 350 000 кВт·ч в год. При средней стоимости электроэнергии для юридических лиц (возьмем условные 10 рублей за кВт·ч для расчета) это экономия в 3.5 миллиона рублей в год. Этих средств достаточно, чтобы окупить модернизацию системы охлаждения за 1.5–2 года. После этого вы получаете чистую экономию, которая увеличивает маржинальность ваших AI-продуктов.

Кроме того, стабильность питания снижает риск потери данных. Стоимость одного часа простоя кластера, обучающего коммерческую модель, может исчисляться сотнями тысяч рублей из-за недополученной прибыли и штрафов за срыв сроков. Инвестиции в надежные ИБП и качественные PSU — это страховка от этих рисков.

Часто задаваемые вопросы

Какой тип охлаждения лучше для стартапа с ограниченным бюджетом?

Для стартапа с ограниченным бюджетом и небольшим количеством GPU (до 4 штук на сервер) оптимальным выбором остается воздушное охлаждение. Оно требует минимальных первоначальных вложений и не требует сложной инфраструктуры. Однако убедитесь, что ваше помещение имеет хорошую вентиляцию и кондиционирование. Не ставьте серверы в закрытые шкафы без активного отвода тепла. Если вы планируете масштабирование в ближайшие 1–2 года, сразу закладывайте возможность перехода на жидкостное охлаждение при выборе помещения.

Можно ли использовать бытовые кондиционеры для охлаждения серверной?

Нет, это категорически не рекомендуется. Бытовые кондиционеры не рассчитаны на круглосуточную работу круглый год, особенно в зимний период. Они не обеспечивают точного контроля влажности, что может привести к накоплению статического электричества или конденсации влаги. Кроме того, у них нет функции мониторинга и интеграции с системами управления ЦОДом. Используйте специализированные прецизионные кондиционеры или системы фрикулинга (free cooling), если климат позволяет.

Что делать, если в здании слабая электрическая сеть?

Если мощность ввода недостаточна, рассмотрите возможность установки локальных источников генерации или использования оборудования с более низким TDP. Также можно применить технологию лимитирования мощности (power capping) на уровне BIOS/BMC, чтобы серверы не потребляли пиковую мощность одновременно. В долгосрочной перспективе единственным решением является увеличение выделенной мощности у энергоснабжающей организации. Не пытайтесь подключать мощные серверы к обычным розеткам — это пожароопасно.

Как часто нужно менять термопасту и обслуживать систему охлаждения?

Для воздушных систем рекомендуется чистка фильтров и радиаторов от пыли каждые 3–6 месяцев. Замена термопасты на GPU и CPU требуется реже, обычно раз в 2–3 года, если температуры остаются в норме. Для систем жидкостного охлаждения необходимо ежегодно проверять качество хладагента, отсутствие утечек и состояние помп. Следуйте рекомендациям производителя оборудования, так как нарушение графика ТО может аннулировать гарантию.

Заключение и следующие шаги

Выбор и настройка вычислительного бокса для больших ИИ-моделей: охлаждение и питание — это комплексная инженерная задача, требующая баланса между производительностью, надежностью и стоимостью. Мы рассмотрели физические ограничения воздушного охлаждения, преимущества жидкостных систем, важность стабильного питания и требования стандартов. Игнорирование этих аспектов ведет к простое оборудования, потере данных и финансовым убыткам.

Не позволяйте инфраструктурным проблемам тормозить развитие ваших AI-инициатив. Правильно спроектированная система обеспечит стабильную работу 24/7, максимальную отдачу от дорогостоящих GPU и предсказуемые операционные расходы. Если вы планируете закупку оборудования или модернизацию существующего ЦОДа, начните с аудита ваших текущих возможностей.

Наши эксперты готовы провести бесплатный консультационный анализ вашей задачи, помочь с подбором конфигурации и обеспечить поставку оборудования, соответствующего всем требованиям РФ и ЕАЭС. Мы работаем с ведущими производителями и гарантируем техническую поддержку на всех этапах внедрения.

Запросить коммерческое предложение на AI-серверы

Услуги по проектированию ЦОД для ИИ

Свяжитесь с нами сегодня, чтобы обсудить ваш проект и получить индивидуальное решение.

Главная
Продукция
О Нас
Контакты

Пожалуйста, оставьте нам сообщение

Политика конфиденциальности

Спасибо за использование этого сайта (далее — «мы», «нас» или «наш»). Мы уважаем ваши права и интересы на личную информацию, соблюдаем принципы законности, легитимности, необходимости и целостности, а также защищаем вашу информационную безопасность. Эта политика описывает, как мы обрабатываем вашу личную информацию.

1. Сбор информации
Информация, которую вы предоставляете добровольно: например, имя, номер мобильного телефона, адрес электронной почты и т.д., заполнена при регистрации. Автоматически собирается информация, такая как модель устройства, тип браузера, журналы доступа, IP-адрес и т.д., для оптимизации сервиса и безопасности.

2. Использование информации
предоставлять, поддерживать и оптимизировать услуги веб-сайтов;
верификацию счетов, защиту безопасности и предотвращение мошенничества;
Отправляйте необходимую информацию, такую как уведомления о сервисах и обновления политик;
Соблюдайте законы, нормативные акты и соответствующие нормативные требования.

3. Защита и обмен информацией
Мы используем меры безопасности, такие как шифрование и контроль доступа, чтобы защитить вашу информацию и храним её только на минимальный срок, необходимый для выполнения задачи.
Не продавайте и не сдавайте личную информацию третьим лицам без вашего согласия; Делитесь только если:
Получите своё явное разрешение;
третьим лицам, которым доверено предоставлять услуги (с учётом обязательств по конфиденциальности);
Отвечать на юридические запросы или защищать законные интересы.

4. Ваши права
Вы имеете право на доступ, исправление и дополнение вашей личной информации, а также можете подать заявление на аннулирование аккаунта (после отмены информация будет удалена или анонимизирована согласно правилам). Чтобы реализовать свои права, вы можете связаться с нами, используя контактные данные, указанные ниже.

5. Обновления политики
Любые изменения в этой политике будут уведомлены путем публикации на сайте. Ваше дальнейшее использование услуг означает ваше согласие с изменёнными правилами.