«Рексофт» (Reksoft) — российская многопрофильная технологическая группа, оказывающая полный спектр услуг в области цифровой трансформации предприятий: от формирования бизнес-стратегии и управления трансформацией до внедрения информационных систем, заказной разработки ПО и поддержки, реализации под ключ проектов в области промышленной автоматизации.
Мы ищем опытного Senior DevOps Engineer, который станет ключевым техническим специалистом в команде платформы нашего заказчика. Ваша основная задача — обеспечить стабильность, производительность и развитие инфраструктуры, ориентированной на задачи машинного обучения и работы с большими данными. Это роль для практика, который любит сложные задачи, понимает процессы ML и хочет строить инфраструктуру, которой будут пользоваться десятки команд.
Основные задачи:
Развёртывание, администрирование и обеспечение отказоустойчивости Kubernetes-кластеров в среде Astra Linux / RedOS.
Построение и поддержка полного цикла MLOps: от подготовки данных и экспериментов до тренировки, deployment и мониторинга моделей.
Развитие и поддержка CI/CD пайплайнов для инфраструктуры и ML-приложений (с использованием GitLab, Ansible).
Настройка и интеграция ключевых компонентов платформы: мониторинг (Prometheus, Grafana), хранилища (Ceph), управление доступом (Keycloak), оркестрация задач (Airflow).
Поддержка и оптимизация работы с Big Data-стеком (Spark, ClickHouse, Greenplum) и GPU-инфраструктурой (Nvidia GPU Operator).
Обеспечение безопасности, сетевого взаимодействия и интеграции платформы с корпоративными сервисами (LDAP, DNS, сетевые политики).
Автоматизация рутинных операций, создание надёжной документации.
Мы ждём от кандидата:
Глубокий опыт администрирования Kubernetes и Docker в production-среде.
Практический опыт построения и поддержки процессов MLOps.
Навыки написания инфраструктурного кода (Ansible, обязательно).
Опыт настройки и поддержки CI/CD (GitLab CI).
Понимание сетевых основ (L2-L3, DNS, балансировка) и обеспечения безопасности инфраструктуры.
Умение работать с системами мониторинга и логирования (Prometheus, Grafana).
Знание Linux (опыт работы с Astra Linux или RedOS будет большим плюсом).
Базовое знание Python для чтения кода и написания скриптов автоматизации.
Опыт работы со следующим стеком будет сильным преимуществом:
Инструменты ML-цикла: MLFlow, DVC, JupyterHub/Lab.
Очереди и оркестрация задач: Airflow.
Big Data: Spark (PySpark), ClickHouse, Greenplum, Hive.
Хранилища: Ceph, CloudNativePG.
GPU-инфраструктура: Nvidia GPU Operator.
Мы предлагаем: