Москва
Метро: Библиотека им.ЛенинаОбязанности:
Проектирование и построение ML/AI инфраструктуры:
• Создание и поддержка архитектуры для разработки, обучения и эксплуатации ИИ-моделей
• Проектирование и внедрение MLOps-платформы для управления жизненным циклом ML-моделей
• Настройка окружений для разработки, тестирования и продакшена ИИ-решений
• Организация инфраструктуры для работы с LLM (Large Language Models) и векторными базами данных
• Обеспечение возможности работы с GPU-ресурсами для обучения и инференса моделей
CI/CD и автоматизация
• Разработка и внедрение CI/CD пайплайнов для ИИ-решений и микросервисов
• Автоматизация процессов сборки, тестирования и развертывания приложений
• Настройка версионирования моделей, данных и артефактов
• Создание инструментов для автоматизированного мониторинга качества моделей (model drift detection).
• Подбор и настройка инструментов для автоматизации рутинных операций
Контейнеризация и оркестрация:
• Проектирование и внедрение решений на базе контейнерных окружений
• Развертывание и администрирование Kubernetes-кластеров
• Создание Helm-чартов для стандартизации развертывания приложений (опционально)
• Настройка масштабирования сервисов в зависимости от событий и метрик производительности
• Оптимизация использования ресурсов контейнеров
Мониторинг и обеспечение надежности:
• Внедрение систем мониторинга инфраструктуры и приложений (Prometheus, Grafana, ELK Stack)
• Настройка алертинга и систем оповещения о критических событиях
• Мониторинг производительности ИИ-моделей в продакшене
• Обеспечение высокой доступности (HA) критичных сервисов
• Разработка и тестирование процедур disaster recovery
• Проведение анализа инцидентов и внедрение мер по их предотвращению
Безопасность и соответствие требованиям:
• Внедрение практик DevSecOps на всех этапах разработки
• Обеспечение безопасности контейнеров и образов
• Настройка сетевой безопасности и политик доступа
• Аудит безопасности инфраструктуры и устранение уязвимостей
• Обеспечение соответствия требованиям по защите данных
Масштабирование и оптимизация:
• Планирование и реализация стратегии масштабирования инфраструктуры
• Оптимизация использования вычислительных ресурсов и затрат на облачную инфраструктуру
• Проведение нагрузочного тестирования и capacity planning
• Помощь в оптимизации производительности приложений и баз данных
• Внедрение кэширования и CDN для ускорения работы сервисов
Стандартизация и документирование:
• Разработка и внедрение стандартов DevOps-практик для команды
• Создание и поддержка Infrastructure as Code (IaC) с использованием Terraform, Kustomization, Helm,
• Документирование архитектуры, процессов и процедур
• Создание runbook'ов для типовых операционных задач
• Разработка best practices для разработчиков по работе с инфраструктурой
Взаимодействие и менторинг:
• Тесное сотрудничество с командами разработки (AI/ML Engineers, Data Engineers)
• Консультирование разработчиков по вопросам инфраструктуры и деплоя
• Участие в архитектурных сессиях и технических ревью
• Обучение команды современным практикам взаимодействия с инфраструктурой
• Организация knowledge sharing сессий
Требования:
Обязательные:
• Контейнеризация и оркестрация: практический опыт администрирования Kubernetes (3+ года)
• CI/CD: опыт построения пайплайнов в GitLab CI/CD, Jenkins, GitHub Actions или аналогах
• Infrastructure as Code: уверенное владение Terraform, Helm, Kustomization
• Облачные платформы: практический опыт работы с AWS, Azure, Yandex Cloud или аналогичными облачными провайдерами
• Автоматизация: уверенное владение актуальными средствами автоматизации Bash, preHooks etc
• Мониторинг: опыт настройки актуальных систем мониторинга (ELK\EFK\Loki, Grafana, OpenTelemetry, Prometheus etc)
• Системное администрирование: глубокое знание Linux
• Сетевые технологии: понимание TCP/IP, DNS, Load Balancing, Reverse Proxy. Так же плюсом будет знание BGP и Service Mesh
• Версионирование: продвинутое владение Git, Git Flow
• Базы данных: опыт администрирования Clickhouse, PostgreSQL, NoSQL KeyValue (Valkey, Dragonfly, Redis etc), , понимание репликации и backup-стратегий
Желательно (будет плюсом):
• MLOps: опыт работы с MLflow, Kubeflow, Airflow для ML-пайплайнов
• Service Mesh: знание Istio, Linkerd
• Безопасность: опыт работы с HashiCorp Vault, настройка RBAC, Network Policies
• Observability: опыт с Jaeger, OpenTelemetry для distributed tracing
• GitOps: знание ArgoCD, Flux
• Serverless: опыт работы с AWS Lambda, Knative
• GPU-инфраструктура: опыт настройки CUDA, nvidia-docker для ML-задач, NVIDIA Operator k8s
• Векторные БД: опыт развертывания Qdrant, Milvus, Weaviate
• Message Brokers: опыт работы с Kafka, RabbitMQ, NATS
Условия:
Офис находится : г. Москва, наб. Пресненская, д.10 (Москва-Сити);
График работы: пятидневная рабочая неделя с понедельника по пятницу , выходные: суббота, воскресенье;
Период испытательного срока: 3 месяца;
ДМС;
Годовой бонус;
Профессиональное обучение и развитие;
Возможность реализовать свой потенциал и построить карьеру.
Конкурентоспособный уровень заработной платы.
Участие в интересных и масштабных проектах.