DevOps-инженер

Москва, Большой Черкасский переулок, 9

Метро: Китай-город

Описание вакансии

Компания ООО "ЦифроТех" - дочерняя ИТ-компания ПАО "Ростелеком"

Цифровая платформа — это глобальное решение для цифровизации деятельности ЦИК России и избирательных комиссий всех уровней. Оно включает в себя все этапы процесса избирательной кампании, а также бэкофисные функции. Эта система позволяет полностью заменить систему ГАС "Выборы" - решение, созданное более 20 лет назад.

Мы предлагаем:

Полностью белая заработная плата (оклад + квартальные премии)
Официальное трудоустройство по ТК РФ
Офисный формат работы в центре Москвы, метро Лубянка, с 9 до 18 стандартная пятидневка, возможно один раз в неделю работать удаленно
ДМС со стоматологией и кафетерий льгот
Возможность профессионального роста
Корпоративное обучение: внутренние митапы, участие в конференциях, включая внешнее обучение у компаний – партнеров, доступ к корпоративным библиотекам технической и бизнес-литературы

Специальные навыки:

Linux: глубокое понимание: CPU, memory, IO, network)

Prometheus:

уверенный PromQL

federation, relabeling, работа с high cardinality

настройка ServiceMonitor / PodMonitor

Zabbix:

шаблоны, LLD, триггеры, зависимости

Grafana:

сложные дашборды, переменные, трансформации

Kubernetes:

диагностика проблем (kubectl, events, metrics)

понимание networking и сервисов

Docker: включая разбор проблем контейнеров

Git: рабочий процесс, review

Базовые навыки скриптинга (Bash / Python)

Понимание принципов алертинга (SLO, error budget, приоритизация)

Чем предстоит заниматься:

Развитие и поддержка системы мониторинга (Prometheus, Grafana, Zabbix) на уровне архитектуры компонентов
Самостоятельное подключение новых сервисов (включая Kubernetes) и проработка схем мониторинга
Разработка и оптимизация метрик, exporters и scrape-конфигураций
Проектирование и внедрение алертов (PromQL + Zabbix), снижение шума (alert noise reduction)
Построение и развитие дашбордов (Grafana) под бизнес и техметрики
Анализ инцидентов, проведение RCA, предложение системных улучшений
Оптимизация производительности мониторинга (кардинальность, нагрузка, retention)
Взаимодействие с командами разработки: требования к метрикам, интеграции

Участие в автоматизации процессов мониторинга (CI/CD, шаблоны, генерация конфигов)
Ведение и актуализация документации

Необходимый опыт:

Опыт работы: 2–4 года в DevOps / SRE / системном администрировании / мониторинге
Уверенное администрирование Linux (production-окружения)
Практический опыт работы с Kubernetes (деплой, диагностика, работа с ресурсами)
Опыт внедрения и развития мониторинга (Prometheus/Zabbix) в production
Опыт написания сложных PromQL
Понимание принципов observability (metrics, logs, traces)
Опыт расследования инцидентов и устранения причин, а не симптомов
Опыт работы с Docker и CI/CD пайплайнами
Желателен опыт работы с высоконагруженными системами