Мы ищем опытного SRE для сопровождения VK WorkSpace — приложения для совместной работы команд (мессенджер, видеоконференции, почта, календарь, задачи и чат-боты в одном приложении).
Задачи
- Автоматизировать рутинные операции (оркестрация, масштабирование, восстановление)
- Масштабировать сервисы под нагрузку, искать узкие места, улучшать производительность и стабильность
- Развивать наблюдаемость систем через мониторинг, логирование и алертинг
- Заниматься поддержкой релизного цикла и минимизацией времени деплоя. Одна из важнейших целей команды — сделать релизы быстрыми и безопасными
- Обеспечивать бесперебойную работу наших сервисов в режиме 24/7, реагировать на мониторинги и нештатные события
- Помимо ежедневных задач SRE придется глубоко погружаться в экосистему VK, интегрировать свои решения с другими командами и обеспечивать бесперебойную работу наших сервисов в любых условиях
Требования
- Опыт работы с распределёнными системами
- Уверенное владение Linux, понимание принципов работы сетей и протоколов взаимодействия приложений (TCP/IP, DNS, балансировка, ACL), навыки диагностики проблем с ними
- Опыт работы с системами мониторинга Victoria Metrics / Prometheus, Grafana, с системами контейнеризации и оркестрации Docker и K8s
- Навыки автоматизации с использованием Bash и базовое владение Python/Go
- Способность работать самостоятельно: формулировать цели, предлагать решения
- Опыт работы от трёх лет на позиции SRE / системного администратора Linux