Отвечать за доступность платформы и развернутых на ней приложений, оперативно устранять инфраструктурные инциденты;
Обеспечивать обновление платформы, весь деплой должен быть покрыт тестами с возможностью отката всех внесенных изменений;
Организовать качественный мониторинг и алертинг инфраструктуры и приложений;
Быть активным участником процессов по анализу возникающих проблем и их системному решению;
Выполнять работы по запросам пользователей;
Планировать и выполнять работы по запросам на изменение, а также регламентных работ направленных на предотвращение угроз деградации/прерывания сервисов;
Осуществлять контроль доступных мощностей, подготавливать предложения по увеличению мощностей;
Участвовать в проектах, внедрять, согласовывать и актуализировать эксплуатационную документацию;
Подготавливать технические требования в случаях необходимости модернизации инфраструктуры;
Проводить DR тесты согласно DRP, согласовывать изменения Продукта (изменение архитектуры, дизайна, масштабирование), оценивать риски и целесообразность изменений;
Участвовать в развертке новых экземпляров платформы.
Требования:
Глубокое знание сетевой модели OSI, TCP/IP стека и основных прикладных протоколов;
Экспертный уровень администрирования Unix-подобных ОС;
Опыт написания скриптов для автоматизации (Bash, Python);
Опыт автоматизации развертывания и управления инфраструктурой, в том числе облачной (Ansible, Terraform и т.п.);