На этой позиции тебе предстоит:
- Работать по устранению проблем инфраструктуры, сервиса и клиентов
- Реагировать на инциденты, проблемы клиентов (переданные с L2) и оповещения мониторинга
- Проводить диагностику, выявлять причины сбоев и восстанавливать работу сервиса
- Участвовать в OnCall-дежурствах
- Участвовать в разборе корневых причин инцидентов (post-mortem)
- Формировать документацию и инструкции для инженеров поддержки 3-го и 2-го уровней;
- Совместно с SRE работать над повышением надёжности системы (мониторинг и пр.)
Что мы ждем от кандидата:
- Опыт сопровождения информационных систем и инфраструктуры (чем сложнее – тем лучше)
- Умение не теряться в критической ситуации и планомерно работать над поиском причины неисправности и её устранением
- Уверенные знания и опыт администрирования Linux
- Уверенные знания в области сетевых технологий
- Уверенные знания о контейнеризации и k8s, опыт работы с kubernetes
- Опыт работы с инструментами мониторинга и логирования (Zabbix / Prometheus, / Grafana / ELK )
- Опыт работы с Ansible
- Знания о системах контроля версий (Git) и CI/CD (Gitlab, Jenkins) и опыт работы с ними