Мы ищем дежурного специалиста мониторинга для круглосуточного контроля состояния сервисов и оперативного реагирования на инциденты.
Ваша задача — следить за стабильностью ИТ-сервисов, выявлять отклонения, фиксировать инциденты и передавать их в работу ответственным командам.
Обязанности:
- Мониторинг состояния инфраструктуры и сервисов.
- Отслеживание алертов и инцидентов в системах мониторинга.
- Первичная диагностика проблем и определение критичности инцидента.
- Регистрация инцидентов в Jira.
- Эскалация инцидентов в профильные команды согласно регламенту.
- Контроль устранения инцидентов и обновление статусов.
- Анализ логов и метрик в Grafana, Loki, Prometheus, Zabbix.
- Выполнение простых SQL-запросов для первичной проверки данных.
- Ведение документации и работа с инструкциями в Confluence.
- Взаимодействие с разработчиками, инфраструктурой и support-командами.
- Участие в улучшении мониторинга.
Требования:
- Понимание принципов работы логирования, метрик и алертинга.
- Умение анализировать инциденты и быстро ориентироваться в ситуации.
- Знание GitLab на базовом уровне.
- Базовые знания SQL для проверки данных и поиска причин инцидентов.
- Умение работать по регламентам и в условиях ограниченного времени.
- Ответственность, внимательность, стрессоустойчивость.
Условия: