Инженер GPU-кластера

Инженер GPU-кластера

посёлок городского типа Некрасовский

Описание вакансии

GPUGO — это инновационная платформа для аренды и сдачи GPU-серверов, предлагающая самые низкие цены на рынке и простой пользовательский опыт. Мы решаем проблемы сложных интерфейсов и завышенных цен у конкурентов, создавая минималистичный сервис для энтузиастов и компаний. Наша миссия - строить сообщество, где GPU-ресурсы доступны всем, с фокусом на удобство, прозрачность и выгодные условия. Мы уже создали MVP, который смог принести первую прибыль. Сейчас находимся на этапе активного развития и ищем специалистов, готовых внести вклад в продукт, которым пользуются ежедневно.

Обязанности:

  • Физическая сборка, диагностика и обслуживание серверов (GPU, CPU, RAM, охлаждение).
  • Установка и настройка Ubuntu Server 24.04, настройка драйверов NVIDIA (CUDA, NVIDIA Container Toolkit), Docker.
  • Настройка физической сети и оверлеев. Организация бесперебойного интернета и туннелирования (WireGuard, GRE, RedSocks, vpn, proxy), настройка резервных каналов.
  • Подключение новых нод к существующему кластеру, траблшутинг проблемных нод, настройка CNI на хостах.
  • Обеспечение доступности серверов, настройка экспортеров для Vector и Victoria*.

Требования:

  • Опыт администрирования Linux (Ubuntu) от 1 года (уверенная работа в консоли, понимание systemd, udev, networkd).
  • Понимание архитектуры GPU-серверов, как работают PCIe-линии, охлаждение, электропитание.
  • Опыт работы с драйверами NVIDIA под Linux (умение исправить конфликты версий и kernel modules).
  • Базовое понимание Kubernetes со стороны инфраструктуры (kubelet, kube-proxy, как добавить ноду в кластер).
  • Навыки работы с сетями (стат. маршрутизация, VPN, VLAN, bonding сетевых карт).
  • Скриптинг на Bash/Python для автоматизации рутины (например, скрипт первичной настройки сервера).

Будет плюсом:

  • Опыт массовой установки ОС (PXE boot, Ansible).
  • Навыки диагностики "железных" проблем (dmesg, memtest, smartctl).
  • Опыт построения GPU-ферм или майнинг-ригов в промышленном масштабе.
  • Опыт работы с K3s.
  • Сертификаты (CKA, RHCSA) или опыт в high-load GPU-кластерах
Навыки
  • Техническое обслуживание
  • Точность и внимательность к деталям
  • Ведение документации
  • Техническая документация
  • Умение работать в коллективе
  • Монтаж оборудования
  • Техническая эксплуатация
  • Контроль исправности оборудования
  • Пуско-наладочные работы
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию