Осуществление круглосуточного мониторинга событий в системах Prometheus/VictoriaMetrics, Zabbix;
Создание инцидентов в таск-трекинговой системе и эскалация на ответственных специалистов;
Взаимодействие со смежными командами по вопросам развития и оптимизации мониторинга: создание и корректировка алертов, добавление новых метрик и правил детекции инцидентов;
Анализ логов и метрик для первичной диагностики причин инцидентов;
Актуализация документации по правилам мониторинга и процедурам реагирования;
Работа с Grafana: cоздание и доработка дашбордов, анализ метрик для выявления потенциальных проблем, визуализация данных для различных групп пользователей.
Что мы ждем от вас:
Опыт работы с системами мониторинга: Prometheus/VictoriaMetrics, Zabbix;
Навыки создания и настройки дашбордов в Grafana;
Понимание принципов построения алертинга и настройки Alertmanager (или аналогов);
Опыт работы в таск-трекинговых системах (Jira, Service Desk или аналогах);
Опыт взаимодействия с другими IT-подразделениями при решении инцидентов: эскалация проблем, координация действий между командами, обеспечение своевременного реагирования на алерты;
Понимание основных принципов мониторинга: метрики и их типы, алертинг и триггеры, процессы эскалации;
Стрессоустойчивость и умение сохранять концентрацию в условиях высокой нагрузки;
Готовность к обучению и развитию профессиональных навыков, коммуникабельность и умение работать в команде.
Условия:
Отсутствие бюрократии и бессмысленных процессов;
Работа в IT-компании, аккредитованной в Министерстве цифрового развития;
Достойная, полностью «белая» оплата труда;
Гибкий график работы и возможность работать полностью удаленно.