Senior Site Reliability Engineer (SRE)

Москва, Поклонная улица, 3к3

Метро: Кутузовская

Описание вакансии

Мы создаем современные ИТ-продукты и технологичные решения, которые помогают бизнесу сокращать расходы на коммуникации с клиентами, повышают эффективность рабочих процессов и легко адаптируются под любые его направления. Решения VS Robotics применяются в банковской сфере, телекоммуникациях, страховании, ритейле, здравоохранении, ЖКХ и многом другом.

Являемся аккредитованной ИТ-компанией в экосистеме Сбера, а по итогам 2023 года заняли 2-е место в рейтинге крупнейших игроков рынка ИИ-решений по версии CNews.

Сейчас мы ищем: Senior Site Reliability Engineer (SRE)

DevOps стек: k8s, helm, Terraform, Ansible, ELK, VictoriaMetrics, Grafana, Jenkins, Gitlab CI и др.

Мы ищем сотрудника, у которого есть:

Практические навыки работы с Linux (администрирование, bash-скрипты, systemd, базовая сеть)
Понимание поддержки продакшна: диагностика, локализация причин, быстрые откаты, работа с инцидентами
Понимание ITSM/ITIL как набора практик (инциденты, изменения, проблемы, знания) и опыт взаимодействия с поддержкой
Понимание CI/CD-процессов, опыт настройки пайплайнов и инструментов (Jenkins, GitLab CI)
Владение Git (Git Flow/Trunk-based практики)

Будет плюсом:

Опыт администрирования Kubernetes-кластеров (развёртывание, мониторинг, устранение проблем), управление контейнерами (Docker, Docker Compose)
Понимание компонентов k8s (etcd, kube-apiserver, kubelet, CNI, ingress-контроллеры), умение поднимать кластеры (kubeadm, Kubespray, вручную)
Принципы инфраструктуры как кода: Terraform (управление ресурсами), Ansible (автоматизация конфигураций), Helm (релизы в k8s)
Основы сетевых технологий (TCP/IP, DNS, HTTP/HTTPS, VPN, балансировка нагрузки), ingress/экосистема (Nginx/HAProxy, Calico/Cilium)
Создание и поддержка систем мониторинга и логирования (Prometheus, Grafana, Loki/ELK/Graylog)
Работа с реестрами и артефактами (GitLab Registry/Nexus), секретами (Vault/Sealed Secrets)
Опыт с облаками/гибридом (Cloud.ru, AWS, GCP, Azure) — будет плюсом
Скриптинг/Python/Go для утилит и автоматизации — плюс.

Что предстоит делать?

Поддерживать стабильную работу on-prem Kubernetes и связанных сервисов; обеспечивать высокую доступность и восстановление
Проектировать и внедрять инфраструктурные изменения (IaC, Ansible, Terraform) безопасно: поэтапно, с откатами и контролем рисков
Разрабатывать и поддерживать CI/CD (Jenkins/GitLab CI), обслуживать раннеры/агенты
Управлять жизненным циклом приложений и платформенных компонентов в k8s (установка, обновление, масштабирование, Helm)
Настраивать наблюдаемость: метрики/логи/трейсы, алерты без шума; улучшать ранбуки
Диагностировать и устранять инциденты, готовить понятные RCA/постмортемы, предлагать улучшения стабильности
Интегрироваться с облачной/гибридной инфраструктурой (создание/изменение/удаление ресурсов IaC-подходом)
Важно: SRE не отвечает за выкладку продуктовых фич. Фокус — эксплуатация и развитие инфраструктуры и платформы

Что мы предлагаем?

Конкурентную зарплату с годовой премией (обсудим ваши ожидания на собеседовании)
Официальное оформление в российскую ИТ-компанию с аккредитацией
Привлекательные бонусы: ДМС, бесплатная подписка «СберПрайм+», скидки на изучение английского языка, бесплатный фитнес в офисе или скидки на покупку абонемента себе и близким, скидки от партнёров Сбера, корпоративная пенсионная программа
Льготная ипотека в Сбере
Удобный формат работы: в офисе рядом с метро Кутузовская, удалённо или в гибридном фомрате, «короткая» пятница

Посмотреть контакты работодателя