Мы - команда ООО "Салют для бизнеса", дочерняя организация Сбера, мы занимаем лидирующие позиции в сфере коммерциализации технологии GenAI с продуктом GigaChat. Мы предлагаем полный цикл решений: LLM-модель GigaChat для локальной и облачной инсталляции, инфраструктуру для GenAI, платформу для разработки агентных систем, готовые GenAI-решения для быстрого старта в типовых задачах, реализацию уникальных клиентских кейсов, консалтинг по GenAI-трансформации. В своей работе мы помогаем нашим партнерам перейти от экспериментов с технологией к промышленному масштабированию, обеспечивая безопасность, адаптивность и экономическую выгоду
Какие задачи решает команда:
* Проектирование, развертывание и поддержка высокопроизводительной и отказоустойчивой сетевой инфраструктуры для LLM/AI рабочих нагрузок в гибридных средах (публичное облако, private cloud, on-premise заказчиков)
* Автоматизация настройки и управления сетевыми профилями, политиками безопасности и QoS для кластеров (включая GPU-кластеры на базе HGX) и отдельных серверов (PCIe) с использованием IaC (Infrastructure as Code)
* Интеграция сетевых решений с платформами оркестрации (OpenShift) и системами мониторинга
Обязанности:
- Настройка сетевых профилей: настройка и оптимизация сетевых параметров (MTU, congestion control, buffer sizes, flow control) на уровне ОС (Linux) и оборудования (коммутаторы, NIC) как для крупных кластеров (включая HGX с InfiniBand/Ethernet), так и для отдельных GPU-серверов (PCIe).
- Автоматизация (IaC): Разработка и поддержка модулей Terraform, Ansible ролей и скриптов (Python/Bash) для автоматизированного развертывания, конфигурирования и управления сетевыми устройствами, профилями ОС и политиками безопасности (включая конфигурацию в контуре заказчиков)
- Мониторинг и диагностика: Настройка и использование систем мониторинга сети (Prometheus/VictoriaMetrics + Grafana, NetFlow/sFlow анализаторы, SNMP) для сбора метрик, логирования и проактивного выявления проблем
- Работа с заказчиками: Взаимодействие с сетевыми командами заказчиков для согласования требований, интеграции решений и решения проблем в их сетевом периметре
Требования:
- Понимание принципов Linux Networking: Понимание сетевого стека Linux
- Протоколы L2/L3: Ethernet (VLAN, LACP), IP (TCP/IP stack глубоко, UDP, ICMP), IPv4/IPv6.
- Динамическая маршрутизация: BGP, OSPF (важно для DC и облаков).
- Высокопроизводительные сети: Понимание основ InfiniBand (как плюс). Знание особенностей настройки сетей для GPU-кластеров.
- Сетевые сервисы: DHCP, DNS, NTP
- Безопасность: Firewalling (Stateful), VPN (IPsec, WireGuard), базовые принципы Zero Trust
- Опыт работы с сетевым оборудованием: Понимание архитектур и CLI/API основных вендоров, Понимание архитектур и CLI/API основных вендоров
- Опыт работы в гибридных средах: Понимание сетевых моделей и сервисов крупных облачных провайдеров (VPC, VNet, Load Balancers, Security Groups, Direct Connect/ExpressRoute)
- Опыт автоматизации: продвинутый опыт работы с Ansible, Terraform
- Опыт работы с Kubernetes, Networking
- Системы мониторинга: опыт настройки и использования Prometheus, VictoriaMetrics, Grafana для мониторинга сети
- Системы контроля версий: Git (GitLab)
- Программирование/Скриптинг: продвинутый Bash, Python, взаимодействия с API
- Условия:
-
- Достойная заработная плата + годовой бонус
- Сильная команда
- Система обучения для профессионального и карьерного развития
- ДМС, с первого рабочего дня
- Работа в аккредитованной IT компании
- Льготная ипотека от Сбера
- Локация: Москва, м. Кутузовская/Павелецкая.