Москва, Киевская улица, 7
Технологический стек:
Чем предстоит заниматься:
Разворачивание, сопровождение и оптимизация production-окружений на базе Kubernetes.
Настройка и обслуживание GPU-нод для эффективной работы тренировочных задач и инференса тяжелых LLM-моделей.
Разработка и поддержка Helm Charts для унификации деплоя микросервисов и ML-компонентов.
Проектирование и поддержка пайплайнов автоматической сборки, тестирования и деплоя (CI/CD) в GitLab CI.
Построение процессов непрерывной доставки моделей (CD для ML): от регистрации артефакта до развертывания в прод.
Обеспечение стабильной работы Apache AirFlow для orchestration DAG-ов (пайплайнов подготовки данных, тренировок и валидации).
Администрирование и интеграция MLFlow (отслеживание экспериментов, реестр моделей, переход между версиями моделей).
Развертывание и настройка высокопроизводительных inference-серверов: KServe / Seldon Core (для стандартного ML), а также Triton и vLLM (для LLM и генеративных моделей).
Внедрение лучших практик по масштабированию (autoscaling), канареечным развертываниям (canary) и мониторингу дрифта данных.
Настройка и поддержка взаимодействия между компонентами и системами хранения: PostgreSQL (как бэкенд для AirFlow/MLFlow) и объектное хранилище Minio (S3) (для хранения датасетов, артефактов моделей и чекпоинтов).
Написание вспомогательных утилит и адаптеров для интеграции ML-библиотек с инфраструктурой.
Будет плюсом, если вы готовы писать высоконагруженные компоненты на Go.
Мы ожидаем от кандидата:
Опыт работы на релевантной позиции от 2-х лет;
Опыт развертывания, настройки и поддержки Kubernetes окружения в production среде;
Опыт развертывания, настройки и поддержки релевантного стека (AirFlow, GitLab CI, MLFlow, PostgreSQL, Minio(S3));
Опыт настройки CI/DC пайплайнов (GitLab CI/CD);
Опыт настройки GPU нод в Kubernetes;
Опыт развертывания, настройки и поддержки inference серверов, таких как Kserve / Seldon Code в в production среде;
Опыт продуктивизации ML/LLM моделей;
Опыт разработки/ написание helm chart-в;
Знание Python (Знание Go приветствуется).
Мы предлагаем: