Круглосуточный мониторинг состояния инфраструктуры, сервисов и business-critical систем по дашбордам и алертам (Zabbix, Prometheus/Grafana, SCOM — по фактически используемому стеку).
Первичная диагностика отклонений: подтверждение или отбраковка ложных срабатываний, сбор данных для эскалации.
Инциденты
Реагирование на инциденты по регламенту и runbook'ам в рамках утверждённых полномочий.
Эскалация в дневную смену или старшему дежурному при выходе за рамки runbook или по SLA.
Ведение инцидентов в тикет-системе: фиксация действий, таймлайн, статус.
Типовые операции
Выполнение стандартных задач по чек-листам: перезапуск сервисов, проверка статуса бэкапов, контроль дискового пространства, ротация логов — только по утверждённым инструкциям.
Контроль работоспособности резервного копирования (статус заданий, алерты).
Коммуникация
Информирование заинтересованных сторон по регламенту (статус-апдейты, критические инциденты).
Документирование
Фиксация всех действий в смене.
Актуализация runbook'ов по согласованию с руководителем.
Требования
Опыт работы от 1,5 до 3 лет в эксплуатации серверной инфраструктуры, технической поддержке 2-й линии или аналогичной роли.
Администрирование Windows Server и Linux (RHEL, CentOS, Ubuntu или Astra Linux) на уровне: сервисы, логи, диски, сеть.
Опыт работы с системой мониторинга (Zabbix, Prometheus/Grafana или аналог).
Понимание виртуализации (Hyper-V или VMware vSphere — один из стеков).
Уверенная работа с логами, базовыми CLI-командами, тикет-системой.