Серверы для обучения больших языковых моделей (LLM): как выбрать конфигурацию под GPT, LLaMA, Claude

Обучение больших языковых моделей (LLM) — одна из самых ресурсоёмких задач в современном IT. Модели масштаба GPT-4, LLaMA 3, Claude 3 и Mistral требуют серверов с десятками тысяч CUDA-ядер, сотнями гигабайт VRAM и высокоскоростной межузловой сетью. В этой статье разберём, как правильно выбрать серверную конфигурацию для обучения и инференса LLM в 2025–2026 году — от выбора GPU до дисковой подсистемы.

ℹ️

По данным аналитиков, рынок AI-серверов вырос на 80% в 2025 году. Более 60% запросов приходится на конфигурации с GPU NVIDIA H100 и H200 для задач обучения языковых моделей.

Почему LLM требуют специальных серверов

Языковые модели отличаются от классических задач машинного обучения прежде всего объёмом параметров. Для сравнения: модель GPT-3 содержит 175 миллиардов параметров, а GPT-4 — по оценкам, более 1 триллиона. Каждый параметр — это число с плавающей запятой, занимающее от 2 до 4 байт памяти. Это означает, что только для хранения весов модели в памяти GPU требуется от 350 ГБ до 4 ТБ VRAM.

Кроме того, при обучении необходимо хранить градиенты, оптимизатор (Adam занимает ×3 от объёма весов) и активации промежуточных слоёв. В итоге реальное потребление памяти при обучении модели в 10–20 раз превышает размер самих весов.

⚠️

Обычные игровые видеокарты (RTX 4090 с 24 ГБ VRAM) подходят только для инференса моделей до 13B параметров. Для обучения моделей от 70B необходимы профессиональные GPU с 80 ГБ+ VRAM и поддержкой NVLink.

Выбор GPU для обучения LLM

Графический процессор — ключевой компонент AI-сервера. Выбор GPU определяет скорость обучения, максимальный размер модели и энергоэффективность. Рассмотрим актуальные варианты на 2025–2026 год.

NVIDIA H100 SXM5	80 ГБ HBM3, 3.35 ТБ/с, 700W, NVLink 4.0 — топ для обучения
NVIDIA H200 SXM	141 ГБ HBM3e, 4.8 ТБ/с, 700W — новый стандарт 2025
NVIDIA H800	80 ГБ HBM3, 2 ТБ/с, 700W — доступен без экспортных ограничений
NVIDIA A100 SXM4	80 ГБ HBM2e, 2 ТБ/с, 400W — бюджетный вариант
AMD Instinct MI300X	192 ГБ HBM3, 5.3 ТБ/с, 750W — альтернатива NVIDIA
NVIDIA L40S	48 ГБ GDDR6, 864 ГБ/с, 350W — инференс и файнтюнинг

Для обучения моделей от 70B параметров оптимальный выбор — кластер из 8× H100 или H200 с NVLink-шиной (900 ГБ/с между GPU). Для файнтюнинга и инференса подходят более доступные A100 или L40S.

✅

При выборе GPU обращайте внимание на пропускную способность памяти (Memory Bandwidth). Для трансформерных архитектур это критичнее, чем пиковая вычислительная мощность в TFLOPS.

Требования к оперативной памяти

Системная оперативная память (RAM) играет важную роль при загрузке датасетов, предобработке данных и обмене данными между CPU и GPU. Минимальные рекомендации:

Инференс малых моделей (до 13B) — от 64 ГБ DDR4/DDR5 ECC
Файнтюнинг средних моделей (13B–70B) — от 256 ГБ DDR4 ECC REG
Обучение крупных моделей (70B+) — от 512 ГБ до 2 ТБ DDR5 ECC REG
Мультиузловые кластеры — 1–2 ТБ на узел

Рекомендуется использовать серверную ECC REG память для предотвращения ошибок вычислений, которые при обучении модели в течение недель могут привести к порче весов и потере результатов.

Сетевая инфраструктура: NVLink, InfiniBand, RoCE

При обучении больших моделей на нескольких GPU обмен градиентами и параметрами между узлами становится узким местом. Существует три основных технологии высокоскоростной связи:

NVLink 4.0	900 ГБ/с между GPU в одном узле. Обязателен для 8-GPU конфигураций
InfiniBand NDR	400 Гбит/с между узлами. Стандарт для мультиузловых кластеров
RoCE v2	100–400 Гбит/с. Бюджетная альтернатива InfiniBand на базе Ethernet
PCIe Gen5 x16	64 ГБ/с на слот. Для подключения GPU к CPU

Дисковая подсистема для датасетов

Для хранения датасетов в сотни ТБ и быстрой загрузки данных при обучении требуется многоуровневая система хранения:

NVMe U.2/U.3 SSD (3–15 ТБ) — основное быстрое хранилище для активных датасетов и чекпоинтов модели
RAID-массив — обязателен для защиты от потери данных обучения (одна эпоха может занимать дни)
HDD-массивы для архивного хранения — датасеты Common Crawl, The Pile и другие занимают десятки ТБ
Сетевое хранилище (NFS/Lustre) — для мультиузловых кластеров с общим доступом к данным

❗

Не экономьте на дисковой подсистеме. Потеря чекпоинта модели после нескольких дней обучения из-за сбоя диска — одна из самых дорогих ошибок в AI-инфраструктуре.

Сколько стоит сервер для обучения LLM

Стоимость AI-сервера зависит от конфигурации, количества GPU и уровня задач. Приведём актуальные ориентировочные расчёты на 2025–2026 год:

Базовый AI-сервер (4× A100 80GB)	512 ГБ RAM, 15 ТБ NVMe — ≈ 10–12 млн ₽. Инференс, файнтюнинг до 33B
Сервер для стартапа (8× H800 80GB)	1 ТБ RAM, 30 ТБ NVMe — ≈ 20–25 млн ₽. Обучение LLaMA-33B, GPT-3.5
Топ-конфигурация (8× H100 80GB)	1–2 ТБ RAM, 30–60 ТБ NVMe — ≈ 30–40 млн ₽. GPT-4, Claude, LLaMA-70B+
Премиум (8× H200 141GB)	2 ТБ RAM, 60 ТБ NVMe, InfiniBand — ≈ 45–60 млн ₽. Обучение моделей 100B+

Сервер или облако: что выбрать?

Многие компании сомневаются: стоит ли покупать собственный сервер или арендовать мощности в облаке (AWS, GCP, Azure, Yandex Cloud)? Разберём ключевые различия.

✅ Плюсы

Полный контроль над инфраструктурой и данными
Окупаемость за 12–18 месяцев при постоянной нагрузке
Нет зависимости от провайдера и его ценовой политики
Возможность перепродажи оборудования
Максимальная производительность без виртуализации

❌ Минусы

Крупные единовременные капитальные вложения
Нужна команда администраторов и инженеров
Затраты на электричество и охлаждение (3–10 кВт на узел)
Время на закупку и настройку — от 2 до 8 недель
Физическое размещение: нужен серверная или колокация

Вывод: если вы планируете использовать GPU-мощности более 6 месяцев, покупка собственного сервера окупается в 2–4 раза быстрее аренды облака. При эпизодических задачах — облако дешевле.

Как выбрать сервер под GPT, LLaMA или Claude

При выборе серверной конфигурации под конкретную модель учитывайте следующие факторы:

Цель — полное обучение с нуля, файнтюнинг (LoRA/QLoRA) или только инференс. Требования к ресурсам различаются в 10–100 раз.
Размер модели — от 7B (умещается на одной RTX 4090) до 405B (требует кластер из 8+ H100).
Бюджет — от 2 млн ₽ за инференс-станцию до 60+ млн ₽ за полноценный обучающий узел.
Масштабируемость — возможность добавить GPU, подключить дополнительные узлы через InfiniBand.
Энергопотребление — от 3 до 10 кВт на один узел, требуется промышленное питание 380В.
Поддержка технологий — PCIe 5.0, NVLink 4.0, InfiniBand NDR, RDMA.

✅

Для файнтюнинга моделей 7B–13B через QLoRA достаточно одной видеокарты с 24 ГБ VRAM (RTX 4090 или L40S). Это самый бюджетный вход в работу с LLM — от 300 000 ₽ за рабочую станцию.

Часто задаваемые вопросы

Какой минимальный сервер нужен для инференса GPT-4?

Для инференса моделей класса GPT-4 (>100B параметров) требуется минимум 4× A100 80GB или 2× H100 80GB с NVLink. Бюджет — от 8 млн ₽.

Можно ли обучать LLM на AMD GPU?

Да, AMD Instinct MI300X с 192 ГБ HBM3 поддерживает ROCm и PyTorch. Производительность сопоставима с H100 для ряда задач, при этом стоимость может быть ниже на 15–20%.

Сколько времени занимает обучение модели 70B с нуля?

На кластере из 256× H100 обучение LLaMA-70B заняло около 30 дней. На одном узле (8× H100) — это заняло бы около 8–12 месяцев, что нецелесообразно.

Нужна ли серверная ECC-память для AI?

Настоятельно рекомендуется. При обучении модели в течение нескольких дней/недель битовая ошибка в RAM может испортить веса модели, и всё обучение придётся начинать заново.

Какое охлаждение нужно для AI-сервера?

Для 8× H100 (5.6 кВт только GPU) необходимо жидкостное или промышленное воздушное охлаждение. Стандартный серверный шкаф с вентиляцией не справится.

Заключение

Обучение LLM требует серьёзной инфраструктуры. Для стартапов подойдут решения на H800, для корпораций и дата-центров — на H100/H200. Бюджетные проекты по файнтюнингу могут использовать A100 или даже L40S. Главное — правильно рассчитать баланс между GPU, памятью, сетью и дисками исходя из конкретных задач.

Автор статьи