Москва
Метро: Библиотека им.ЛенинаМы ищем целеустремленного Senior DevOps-инженера, который присоединится к нашей команде для построения и развития надежной, масштабируемой и безопасной инфраструктуры.
Чем предстоит заниматься:
Развитие инфраструктуры: Проектировать, развивать и поддерживать приложения в облаках (AWS, Yandex Cloud) с использованием принципов IaC.
K8s: Разворачивать и приводить к стандарту k8s-кластеры (сети, ingress, storage, секреты, autoscaling).
CI/CD: Настраивать и поддерживать эффективные процессы непрерывной интеграции и доставки (CI/CD) на основе GitHub Flow / GitLab Flow.
Автоматизация: Автоматизировать рутинные операции с помощью Ansible, Terraform и скриптов (Bash/Python).
Мониторинг и логи: Развивать систему мониторинга и сбора логов (Prometheus, Grafana, ELK-stack) для оперативного контроля и предотвращения инцидентов.
Техническая поддержка: Участвовать в устранении инцидентов (troubleshooting) на всех уровнях стека — от сети и ОС до приложений.
Обязательный опыт (5+ лет на позициях DevOps/SRE):
Kubernetes: администрирование production кластеров, работа с Helm, ArgoCD, понимание Service Mesh (Istio).
Облачные платформы: AWS, Yandex Cloud, Azure, GCP — опыт миграции и multi-cloud.
Автоматизация и IaC: практический опыт Terraform, Ansible.
CI/CD: опыт настройки пайплайнов GitLab CI, Jenkins, понимание GitHub Flow, trunk-based development.
Мониторинг: навыки настройки Prometheus, Grafana, ELK Stack, опыт с observability инструментами.
Программирование: уверенные навыки Python и Bash.
Сетевые технологии: TCP/IP, DNS, HTTP, NAT, знание принципов работы сетевых устройств.
Опыт построения отказоустойчивых конфигураций Kafka, Redis, RabbitMQ.
Будет плюсом:
Опыт с высоконагруженными системами (highload).
Опыт программирования Go.
Сертификации: AWS Certified DevOps Engineer, Azure Administrator, GCP Professional Cloud Architect.
Опыт в Machine Learning / Data Platform инженерии.
TTFD (Time To First Deployment): разработка нового сервиса или фичи выходит в production за часы, а не дни или недели.
MTTR (Mean Time To Recovery): стабильное снижение времени восстановления после инцидентов.
Alarmfatigue prevention: алерты без шума, каждый alert действителен, настроены runbooks и playbooks для автоматизированного реагирования.
IaC-покрытие инфраструктуры: 90%+ кода инфраструктуры в версионной системе (Git).
Disaster Recovery: регулярные DR-тесты в заданные RTO/RPO, документирование стратегии восстановления.
Автоматизация: минимизация ручных операций, экономия ресурсов, снижение операционных затрат (CapEx/OpEx).
Арбитражный управляющий Засимова Елена Вячеславовна
Москва
до 450000 RUR
letitgo.agency
Москва
до 25000 RUR
Власов Герман Максимович
Москва
до 150000 RUR
Черненко Сергей Владимирович
Москва
до 130000 RUR
Саковская Людмила Владимировна
Москва
от 240000 RUR
Учет и финансы
Москва
до 50000 RUR
Москва
до 300000 RUR