DevOps Engineer/ MLOps

Хайлэнд Голд

DevOps Engineer/ MLOps

Москва

Метро: Библиотека им.Ленина

Описание вакансии

Обязанности:

Проектирование и построение ML/AI инфраструктуры:

• Создание и поддержка архитектуры для разработки, обучения и эксплуатации ИИ-моделей

• Проектирование и внедрение MLOps-платформы для управления жизненным циклом ML-моделей

• Настройка окружений для разработки, тестирования и продакшена ИИ-решений

• Организация инфраструктуры для работы с LLM (Large Language Models) и векторными базами данных

• Обеспечение возможности работы с GPU-ресурсами для обучения и инференса моделей

CI/CD и автоматизация

• Разработка и внедрение CI/CD пайплайнов для ИИ-решений и микросервисов

• Автоматизация процессов сборки, тестирования и развертывания приложений

• Настройка версионирования моделей, данных и артефактов

• Создание инструментов для автоматизированного мониторинга качества моделей (model drift detection).

• Подбор и настройка инструментов для автоматизации рутинных операций

Контейнеризация и оркестрация:

• Проектирование и внедрение решений на базе контейнерных окружений

• Развертывание и администрирование Kubernetes-кластеров

• Создание Helm-чартов для стандартизации развертывания приложений (опционально)

• Настройка масштабирования сервисов в зависимости от событий и метрик производительности

• Оптимизация использования ресурсов контейнеров

Мониторинг и обеспечение надежности:

• Внедрение систем мониторинга инфраструктуры и приложений (Prometheus, Grafana, ELK Stack)

• Настройка алертинга и систем оповещения о критических событиях

• Мониторинг производительности ИИ-моделей в продакшене

• Обеспечение высокой доступности (HA) критичных сервисов

• Разработка и тестирование процедур disaster recovery

• Проведение анализа инцидентов и внедрение мер по их предотвращению

Безопасность и соответствие требованиям:

• Внедрение практик DevSecOps на всех этапах разработки

• Обеспечение безопасности контейнеров и образов

• Настройка сетевой безопасности и политик доступа

• Аудит безопасности инфраструктуры и устранение уязвимостей

• Обеспечение соответствия требованиям по защите данных

Масштабирование и оптимизация:

• Планирование и реализация стратегии масштабирования инфраструктуры

• Оптимизация использования вычислительных ресурсов и затрат на облачную инфраструктуру

• Проведение нагрузочного тестирования и capacity planning

• Помощь в оптимизации производительности приложений и баз данных

• Внедрение кэширования и CDN для ускорения работы сервисов

Стандартизация и документирование:

• Разработка и внедрение стандартов DevOps-практик для команды

• Создание и поддержка Infrastructure as Code (IaC) с использованием Terraform, Kustomization, Helm,

• Документирование архитектуры, процессов и процедур

• Создание runbook'ов для типовых операционных задач

• Разработка best practices для разработчиков по работе с инфраструктурой

Взаимодействие и менторинг:

• Тесное сотрудничество с командами разработки (AI/ML Engineers, Data Engineers)

• Консультирование разработчиков по вопросам инфраструктуры и деплоя

• Участие в архитектурных сессиях и технических ревью

• Обучение команды современным практикам взаимодействия с инфраструктурой

• Организация knowledge sharing сессий

Требования:

Обязательные:

• Контейнеризация и оркестрация: практический опыт администрирования Kubernetes (3+ года)

• CI/CD: опыт построения пайплайнов в GitLab CI/CD, Jenkins, GitHub Actions или аналогах

• Infrastructure as Code: уверенное владение Terraform, Helm, Kustomization

• Облачные платформы: практический опыт работы с AWS, Azure, Yandex Cloud или аналогичными облачными провайдерами

• Автоматизация: уверенное владение актуальными средствами автоматизации Bash, preHooks etc

• Мониторинг: опыт настройки актуальных систем мониторинга (ELK\EFK\Loki, Grafana, OpenTelemetry, Prometheus etc)

• Системное администрирование: глубокое знание Linux

• Сетевые технологии: понимание TCP/IP, DNS, Load Balancing, Reverse Proxy. Так же плюсом будет знание BGP и Service Mesh

• Версионирование: продвинутое владение Git, Git Flow

• Базы данных: опыт администрирования Clickhouse, PostgreSQL, NoSQL KeyValue (Valkey, Dragonfly, Redis etc), , понимание репликации и backup-стратегий

Желательно (будет плюсом):

• MLOps: опыт работы с MLflow, Kubeflow, Airflow для ML-пайплайнов

• Service Mesh: знание Istio, Linkerd

• Безопасность: опыт работы с HashiCorp Vault, настройка RBAC, Network Policies

• Observability: опыт с Jaeger, OpenTelemetry для distributed tracing

• GitOps: знание ArgoCD, Flux

• Serverless: опыт работы с AWS Lambda, Knative

• GPU-инфраструктура: опыт настройки CUDA, nvidia-docker для ML-задач, NVIDIA Operator k8s

• Векторные БД: опыт развертывания Qdrant, Milvus, Weaviate

• Message Brokers: опыт работы с Kafka, RabbitMQ, NATS

Условия:
  • Офис находится : г. Москва, наб. Пресненская, д.10 (Москва-Сити);

  • График работы: пятидневная рабочая неделя с понедельника по пятницу , выходные: суббота, воскресенье;

  • Период испытательного срока: 3 месяца;

  • ДМС;

  • Годовой бонус;

  • Профессиональное обучение и развитие;

  • Возможность реализовать свой потенциал и построить карьеру.

  • Конкурентоспособный уровень заработной платы.

  • Участие в интересных и масштабных проектах.

Посмотреть контакты работодателя

Адрес

Похожие вакансии

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию