Обучение больших языковых моделей (LLM) — одна из самых ресурсоёмких задач в современном IT. Модели масштаба GPT-4, LLaMA 3, Claude 3 и Mistral требуют серверов с десятками тысяч CUDA-ядер, сотнями гигабайт VRAM и высокоскоростной межузловой сетью. В этой статье разберём, как правильно выбрать серверную конфигурацию для обучения и инференса LLM в 2025–2026 году — от выбора GPU до дисковой подсистемы.
Почему LLM требуют специальных серверов
Языковые модели отличаются от классических задач машинного обучения прежде всего объёмом параметров. Для сравнения: модель GPT-3 содержит 175 миллиардов параметров, а GPT-4 — по оценкам, более 1 триллиона. Каждый параметр — это число с плавающей запятой, занимающее от 2 до 4 байт памяти. Это означает, что только для хранения весов модели в памяти GPU требуется от 350 ГБ до 4 ТБ VRAM.
Кроме того, при обучении необходимо хранить градиенты, оптимизатор (Adam занимает ×3 от объёма весов) и активации промежуточных слоёв. В итоге реальное потребление памяти при обучении модели в 10–20 раз превышает размер самих весов.
Выбор GPU для обучения LLM
Графический процессор — ключевой компонент AI-сервера. Выбор GPU определяет скорость обучения, максимальный размер модели и энергоэффективность. Рассмотрим актуальные варианты на 2025–2026 год.
| NVIDIA H100 SXM5 | 80 ГБ HBM3, 3.35 ТБ/с, 700W, NVLink 4.0 — топ для обучения |
| NVIDIA H200 SXM | 141 ГБ HBM3e, 4.8 ТБ/с, 700W — новый стандарт 2025 |
| NVIDIA H800 | 80 ГБ HBM3, 2 ТБ/с, 700W — доступен без экспортных ограничений |
| NVIDIA A100 SXM4 | 80 ГБ HBM2e, 2 ТБ/с, 400W — бюджетный вариант |
| AMD Instinct MI300X | 192 ГБ HBM3, 5.3 ТБ/с, 750W — альтернатива NVIDIA |
| NVIDIA L40S | 48 ГБ GDDR6, 864 ГБ/с, 350W — инференс и файнтюнинг |
Для обучения моделей от 70B параметров оптимальный выбор — кластер из 8× H100 или H200 с NVLink-шиной (900 ГБ/с между GPU). Для файнтюнинга и инференса подходят более доступные A100 или L40S.
Требования к оперативной памяти
Системная оперативная память (RAM) играет важную роль при загрузке датасетов, предобработке данных и обмене данными между CPU и GPU. Минимальные рекомендации:
- Инференс малых моделей (до 13B) — от 64 ГБ DDR4/DDR5 ECC
- Файнтюнинг средних моделей (13B–70B) — от 256 ГБ DDR4 ECC REG
- Обучение крупных моделей (70B+) — от 512 ГБ до 2 ТБ DDR5 ECC REG
- Мультиузловые кластеры — 1–2 ТБ на узел
Рекомендуется использовать серверную ECC REG память для предотвращения ошибок вычислений, которые при обучении модели в течение недель могут привести к порче весов и потере результатов.
Сетевая инфраструктура: NVLink, InfiniBand, RoCE
При обучении больших моделей на нескольких GPU обмен градиентами и параметрами между узлами становится узким местом. Существует три основных технологии высокоскоростной связи:
| NVLink 4.0 | 900 ГБ/с между GPU в одном узле. Обязателен для 8-GPU конфигураций |
| InfiniBand NDR | 400 Гбит/с между узлами. Стандарт для мультиузловых кластеров |
| RoCE v2 | 100–400 Гбит/с. Бюджетная альтернатива InfiniBand на базе Ethernet |
| PCIe Gen5 x16 | 64 ГБ/с на слот. Для подключения GPU к CPU |
Дисковая подсистема для датасетов
Для хранения датасетов в сотни ТБ и быстрой загрузки данных при обучении требуется многоуровневая система хранения:
- NVMe U.2/U.3 SSD (3–15 ТБ) — основное быстрое хранилище для активных датасетов и чекпоинтов модели
- RAID-массив — обязателен для защиты от потери данных обучения (одна эпоха может занимать дни)
- HDD-массивы для архивного хранения — датасеты Common Crawl, The Pile и другие занимают десятки ТБ
- Сетевое хранилище (NFS/Lustre) — для мультиузловых кластеров с общим доступом к данным
Сколько стоит сервер для обучения LLM
Стоимость AI-сервера зависит от конфигурации, количества GPU и уровня задач. Приведём актуальные ориентировочные расчёты на 2025–2026 год:
| Базовый AI-сервер (4× A100 80GB) | 512 ГБ RAM, 15 ТБ NVMe — ≈ 10–12 млн ₽. Инференс, файнтюнинг до 33B |
| Сервер для стартапа (8× H800 80GB) | 1 ТБ RAM, 30 ТБ NVMe — ≈ 20–25 млн ₽. Обучение LLaMA-33B, GPT-3.5 |
| Топ-конфигурация (8× H100 80GB) | 1–2 ТБ RAM, 30–60 ТБ NVMe — ≈ 30–40 млн ₽. GPT-4, Claude, LLaMA-70B+ |
| Премиум (8× H200 141GB) | 2 ТБ RAM, 60 ТБ NVMe, InfiniBand — ≈ 45–60 млн ₽. Обучение моделей 100B+ |
Сервер или облако: что выбрать?
Многие компании сомневаются: стоит ли покупать собственный сервер или арендовать мощности в облаке (AWS, GCP, Azure, Yandex Cloud)? Разберём ключевые различия.
- Полный контроль над инфраструктурой и данными
- Окупаемость за 12–18 месяцев при постоянной нагрузке
- Нет зависимости от провайдера и его ценовой политики
- Возможность перепродажи оборудования
- Максимальная производительность без виртуализации
- Крупные единовременные капитальные вложения
- Нужна команда администраторов и инженеров
- Затраты на электричество и охлаждение (3–10 кВт на узел)
- Время на закупку и настройку — от 2 до 8 недель
- Физическое размещение: нужен серверная или колокация
Вывод: если вы планируете использовать GPU-мощности более 6 месяцев, покупка собственного сервера окупается в 2–4 раза быстрее аренды облака. При эпизодических задачах — облако дешевле.
Как выбрать сервер под GPT, LLaMA или Claude
При выборе серверной конфигурации под конкретную модель учитывайте следующие факторы:
- Цель — полное обучение с нуля, файнтюнинг (LoRA/QLoRA) или только инференс. Требования к ресурсам различаются в 10–100 раз.
- Размер модели — от 7B (умещается на одной RTX 4090) до 405B (требует кластер из 8+ H100).
- Бюджет — от 2 млн ₽ за инференс-станцию до 60+ млн ₽ за полноценный обучающий узел.
- Масштабируемость — возможность добавить GPU, подключить дополнительные узлы через InfiniBand.
- Энергопотребление — от 3 до 10 кВт на один узел, требуется промышленное питание 380В.
- Поддержка технологий — PCIe 5.0, NVLink 4.0, InfiniBand NDR, RDMA.
Часто задаваемые вопросы
Заключение
Обучение LLM требует серьёзной инфраструктуры. Для стартапов подойдут решения на H800, для корпораций и дата-центров — на H100/H200. Бюджетные проекты по файнтюнингу могут использовать A100 или даже L40S. Главное — правильно рассчитать баланс между GPU, памятью, сетью и дисками исходя из конкретных задач.
