Автоматизировать рутинные операции (оркестрация, масштабирование, восстановление)
Масштабировать сервисы под нагрузку, искать узкие места, улучшать производительность и стабильность
Развивать наблюдаемость систем через мониторинг, логирование и алертинг
Заниматься поддержкой релизного цикла и минимизацией времени деплоя. Одна из важнейших целей команды – сделать релизы быстрыми и безопасными
Обеспечивать бесперебойную работу наших сервисов в режиме 24/7, реагировать на мониторинги и нештатные события
Помимо ежедневных задач SRE придется глубоко погружаться в экосистему VK, интегрировать свои решения с другими командами и обеспечивать бесперебойную работу наших сервисов в любых условиях
Требования
Опыт работы с распределёнными системами
Уверенное владение Linux, понимание принципов работы сетей и протоколов взаимодействия приложений (TCP/IP, DNS, балансировка, ACL), навыки диагностики проблем с ними
Опыт работы с системами мониторинга Victoria Metrics/Prometheus, Grafana, с системами контейнеризации и оркестрации Docker и k8s
Навыки автоматизации с использованием Bash и базовое владение Python/Go
Способность работать самостоятельно: формулировать цели, предлагать решения
Опыт работы от 3 лет на позиции SRE/системного администратора Linux