Непрерывный мониторинг состояния работоспособности сервисов, СУБД и инфраструктуры(Grafana, Kibana, зонтичная система мониторинга и др.) и реагирование на алерты.
Оперативное восстановление работоспособности сервисов при сбоях.
Коммуникация и координация во время инцидентовОрганизация созвонов и оповещение ответственных лиц и смежных подразделений.
Анализ и первичная диагностика проблем, документирование инцидентов.
Участие в пост-инцидентных разборах и подготовка отчётов.
Для нас важно:
Опыт работы с системами мониторинга (Grafana, Kibana и др.).
Навыки анализа логов, метрик и трассировок.
Умение оперативно реагировать на инциденты и эскалировать сложные случаи.
Знание процедур эксплуатации и стандартов информационной безопасности.
Готовность к работе по сменному графику, включая ночные смены и выходные.