Главный инженер в команду инфраструктуры

Описание вакансии

Главный инженер отвечает за развитие и эксплуатацию централизованных систем мониторинга и логирования, наблюдаемость (observability) инфраструктуры и ключевых сервисов компании, снижение времени обнаружения и устранения инцидентов и повышение устойчивости ИТ‑ландшафта.

Обязанности

- Развитие и поддержка системы мониторинга на базе Zabbix: шаблоны, триггеры, LLD, сценарии эскалаций, интеграции с тикет‑системами и мессенджерами.

- Проектирование и сопровождение дашбордов в Grafana для инфраструктурных и бизнес‑метрик, настройка алертинга.

- Организация сбора телеметрии (метрики, логи, трассировки) от инфраструктурных и прикладных систем, участие во внедрении OpenTelemetry и подходов observability.

- Эксплуатация Linux‑инфраструктуры в зоне ответственности: серверы мониторинга и логирования, MX‑серверы, NGINX/HAProxy, сопутствующие сервисы.

- Автоматизация регламентных задач с использованием Ansible (плейбуки, роли, политики конфигурации) и скриптинга (Bash/Python).

- Развитие и сопровождение систем централизованного логирования (OpenSearch/ELK или аналогичный стек): пайплайны логов, индексы, ретеншн, аналитические дашборды.

- Участие в расследовании и post‑mortem разборе инцидентов, подготовка отчётности по доступности и производительности сервисов, KPI и операционным метрикам.

- Взаимодействие с DevOps и командами разработки по вопросам мониторинга, логирования, требований к метрикам и готовности сервисов к эксплуатации.

Чем предстоит заниматься:

- Поддерживать работоспособность и актуальность Zabbix/Grafana/лог‑стека и инфраструктурных сервисов на Linux.

- Подключать новые системы и сервисы к мониторингу и логированию, описывать требования к метрикам и алертам.

- Тюнинговать алерты и дашборды так, чтобы дежурные видели важное вовремя, без шума.

- Автоматизировать рутину Ansible‑плейбуками и скриптами.

- Участвовать в эскалациях, помогать быстро находить и устранять причины инцидентов.

Требования

Образование и опыт:

- Высшее техническое образование.

- От 3 лет опыта в эксплуатации ИТ‑систем: системный администратор Linux/инженер мониторинга/SRE/DevOps‑инженер.

Технологические навыки:

- Уверенный Linux (семейства RHEL/Debian): установка, конфигурация, обновления, systemd, журналирование, базовая безопасность и troubleshooting.

- Продвинутый Zabbix: шаблоны, LLD, триггеры, действия, эскалации, интеграции; понимание архитектуры Zabbix‑сервера/прокси/агентов.

- Опыт работы с Grafana: проектирование дашбордов, работа с источниками данных, настройка алертинга.

- Опыт эксплуатации веб‑серверов и балансировщиков (NGINX, HAProxy): публикация сервисов, TLS, health‑checks, схемы отказоустойчивости.

- Понимание подходов observability: метрики, логи, трассировки; опыт или готовность работать с OpenTelemetry.

- Опыт работы с системами логирования (OpenSearch/ELK или аналог): сбор логов, индексы, ретеншн, поиск, базовая визуализация.

- Автоматизация с помощью Ansible (плейбуки, роли, инвентори) и скриптов (Bash, желательно Python).

- Базовые знания БД (PostgreSQL, MySQL/MariaDB) в части эксплуатации сервисов мониторинга/логирования.

Будет плюсом:

- Опыт построения или серьёзного развития monitoring/logging‑стека «с нуля» или в рамках крупного проекта.

- Опыт работы в связке с DevOps/разработкой, участие в CICD‑процессах, понимание SLI/SLO/SLA.

- Опыт работы с Prometheus, VictoriaMetrics или аналогичными системами метрик.

Личные качества (желательно):

- Системное мышление и ориентация на надёжность: привычка мыслить через доступность, MTTR и устойчивость, а не только через «починить прямо сейчас».

- Проактивность: стремление не только тушить инциденты, но и устранять их причины, улучшать мониторинг, логирование и автоматизацию.

- Умение объяснять сложные технические вещи простым языком для Dev, эксплуатации и бизнеса.

- Аккуратность при работе с прод‑окружениями, уважение к регламентам изменений и документации.

Условия

-Гибридный формат работы (офис + удаленная работа);

-Офис Москва Сити (м. Деловой центр);

-выгодные ипотечные льготные условия кредитования;

-бесплатная подписка СберПрайм+;

-скидки на продукты компаний-партнеров: Okko, Сбер Маркет, Delivery Club, -Самокат, Ситимобил, Сбер Еаптека и другие;

-ДМС с первого дня и льготное страхование для близких;

-корпоративная пенсионная программа;

-детский отдых и подарки за счет Компании;

-обучение за счет Компании: онлайн курсы в Виртуальной школе Сбера и -неограниченный доступ к библиотеке, обучение в Корпоративном университете, -тренинги, митапы и возможность получить новую квалификацию;

-реферальная программа для сотрудников: можно пригласить в команду -знакомых профессионалов и получить вознаграждение до 100 тыс. рублей;

-скидки на отдых в лучшем в мире курортном комплексе «Mriya Resort & SPA» в Ялте.

Посмотреть контакты работодателя