В нашей компании открыта позиция ведущего
DevOps Engineer / Platform Engineer (ML Infrastructure) в лабораторию интеллектуальных систем службы научно-технических разработок и инноваций. Мы ищем DevOps-инженера, который поможет нам трансформировать текущую инфраструктуру из набора поддерживаемых вручную сервисов в отказоустойчивую автоматизированную платформу. Сейчас у нас есть рабочий набор инструментов (GitLab, ClearML, CVAT), но наша цель — избавиться от рутины, внедрить лучшие практики (S3, SSO, Kubernetes) и выстроить строгий, но удобный CI/CD для команды разработки и ML-инженеров.
Чем предстоит заниматься: - Контейнеризация и отказоустойчивость: Перевод внутренних сервисов в Kubernetes, настройка механизмов High Availability (HA), самовосстановления и грамотного масштабирования.
- Управление доступами (IAM): Внедрение Identity Provider (IdP) / Single Sign-On (SSO) для полной автоматизации процессов онбординга и офбординга сотрудников (чтобы забыть о ручном заведении пользователей в каждом сервисе).
- Инфраструктура хранения: Проектирование и реализация миграции данных всех сервисов на единое S3-совместимое хранилище (ключевой проект для упрощения бэкапов и повышения надежности).
- Развитие CI/CD (GitLab):
◦ Внедрение обязательных проверок качества кода: линтинг и форматирование (PEP8, black, isort, ruff), статический анализ (mypy).
◦ Настройка автобилдов десктопных приложений.
◦ Интеграция запуска unit-тестов для новых ML-моделей.
◦ Внедрение архитектурного контроля (например, через pre-commit хуки или кастомные шаги в CI), чтобы коммиты с нарушением заданных архитектурных правил отклонялись автоматически. - Администрирование и поддержка: Обеспечение стабильной работы текущего стека (GitLab, Wiki, Planka, ClearML, CVAT), включая траблшутинг (например, устранение ошибок и битых ссылок в ClearML) и аудит процессов резервного копирования.
- Процессы: Помощь во внедрении и первоначальной настройке Jira для упорядочивания рабочих процессов команды.
Нам важно: - Опыт работы с Kubernetes: уверенные знания архитектуры K8s, опыт контейнеризации сервисов, настройки High Availability (HA), автомасштабирования и механизмов самовосстановления приложений.
- Глубокое понимание CI/CD: опыт построения и оптимизации пайплайнов в GitLab CI/CD, автоматизации сборки (включая десктопные приложения) и тестирования.
- Автоматизация качества кода (QA/Linting): опыт интеграции в CI/CD инструментов статического анализа, линтинга и форматирования кода (пакеты Ruff, Black, Mypy, Isort).
- Управление инфраструктурой хранения данных: практический опыт проектирования, миграции и администрирования S3-совместимых хранилищ, настройки систем резервного копирования и обеспечения отказоустойчивости данных.
Будет плюсом:
- Опыт в роли MLOps / ML Infrastructure: понимание специфики жизненного цикла ML-моделей и опыт администрирования специализированного AI/ML стека (ClearML, CVAT). ◦ Навыки траблшутинга ML-платформ: умение разбираться в ошибках логирования, интеграции данных и разрыва связей/ссылок внутри инфраструктуры машинного обучения.
- Базовые знания Python: способность читать код инфраструктурных скриптов, тестов и конфигураций линтеров для эффективного взаимодействия с командой разработки и ML-инженерами.
- Опыт работы с IAM / Безопасностью: понимание принципов управления доступами, практический опыт внедрения решений Identity Provider (IdP) и протоколов Single Sign-On (SSO)
- Опыт работы с удаленными стендами: внедрение и настройка удаленного стенда на базе одноплатных компьютеров для проверки корректности прошивок.
Условия: - График работы 5/2;
- Испытательный срок - 3 месяца;
- Официальное трудоустройство, «белая» заработная плата, социальный пакет по ТК РФ;
- Зарплатный проект ВТБ, Сбер;
- Корпоративная программа ДМС (включая стоматологию);
- Обеспечение питания
- Профессиональный и дружный коллектив