Необходимые знания и навыки:
- Опыт работы в роли руководителя SRE, incident manager или руководителя сопровождения;
- Понимание принципов работы цифровых каналов (web, мобильные приложения, ДБО);
- Опыт построения и внедрения систем мониторинга (Prometheus, Grafana, Zabbix, ELK и др.);
- Знание практик SRE (SLO, error budget, capacity planning, chaos testing);
- Опыт взаимодействия с командами разработки, инфраструктуры и эксплуатации;
- Навыки people-management: формирование и развитие команды, мотивация, управление нагрузкой;
- Знание ITIL/Incident Management и практик DevOps будет плюсом.
Чем предстоит заниматься:
- Организация и развитие процессов SRE и инцидент-менеджмента для цифровых каналов (сайт, ДБО);
- Управление командой инженеров SRE и L2 сопровождения;
- Обеспечение стабильности, доступности и высокой производительности каналов;
- Построение системы мониторинга (end-to-end наблюдаемости, алертов, метрик SLO/SLI/SLA);
- Организация процесса реагирования на инциденты: сбор, анализ, устранение, коммуникации с бизнесом;
- Проведение пост-мортемов, построение базы знаний, внедрение практик предотвращения повторных инцидентов;
- Взаимодействие с L3, разработкой, инфраструктурой и безопасностью;
- Оптимизация процессов сопровождения, автоматизация рутинных операций;
- Подготовка регулярной отчётности по качеству работы систем и SLA.
Мы предлагаем:
- По-настоящему живую и увлечённую команду, профессиональное развитие в команде одного из крупнейших Банков России;
- Официальное оформление по ТК РФ, достойный уровень вознаграждения;
- Корпоративное ДМС со стоматологией с первого месяца работы;
- Отпуск 33 дня + материальная помощь к отпуску, различные корпоративные программы;
- Возможность пользоваться Библиотекой и платформой с онлайн-курсами, участие в специализированных конференциях;
- Скидки от партнеров (ГПБ Бонус), сотовая связь для служебного использования;
- Активная корпоративная жизнь: устраиваем нескучные чтения, спортивные марафоны, квизы.