Наша SRE-команда создаёт надёжную инфраструктуру и обеспечивает бесперебойную работу highload систем для всех решений и умных устройств Салют.
Мы отвечаем за надёжность и доступность ключевых сервисов в режиме 24/7/365.
Ищем опытного SRE Tech Lead, который станет техническим центром нашей команды. Вы будете отвечать за выбор технологий и внедрение лучших практик, обеспечивающих стабильность, доступность и масштабируемость платформы Салют — сердца нашей экосистемы.
Для нас важен глубокий технический бэкграунд и способность быть «играющим тренером», который не только задаёт вектор развития, но и активно участвует в решении самых сложных технических задач.
Первый этап отбора на эту вакансию – общение с AI-рекрутером. После отклика ждите сообщение от него в Telegram, диалог займёт примерно 10 минут. Задача AI-рекрутера — уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры.
AI-рекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным для всех!
Обязанности
- Техническое лидерство: определение архитектуры решений, выбор технологий и стандартов для обеспечения надёжности, доступности и производительности систем.
- Сопровождение и развитие _highload_-сервисов: внедрение, масштабирование и оптимизация инфраструктуры.
- Проектирование и поддержка промышленного и тестового окружения (Linux, VM, K8s, OpenShift).
- Обеспечение заявленной доступности и производительности IT-систем (24/7/365).
- Анализ и устранение сложных инцидентов, проведение RCA (анализ первопричин).
- Автоматизация рутинных задач: разработка скриптов и инструментов (Python, ChatOps).
- Взаимодействие с командами разработки и бизнесом для согласования технических решений.
Требования
- Глубокий опыт внедрения и сопровождения ИТ-систем с высокими требованиями к надёжности и доступности.
- Экспертные знания Linux.
- Практические знания и навыки работы с контейнеризацией (K8s, OpenShift).
- Опыт работы с системами мониторинга (Zabbix, Grafana) и сбора логов/метрик.
- Понимание сетевых протоколов (TCP/IP, HTTP) и принципов построения отказоустойчивых систем.
- Опыт работы с Nginx, Kafka, ZooKeeper, HAProxy, S3.
- Навыки администрирования баз данных (PostgreSQL, MongoDB), понимание принципов работы.
- Понимание методологии DevOps и практический опыт использования инструментов автоматизации (Ansible, AWX).
Будет преимуществом:
- Навыки разработки на Python, Java или C++.
- Опыт автоматизации с использованием Python, ChatOps.
- Понимание принципов Infrastructure as Code (IaC), опыт с Terraform.
- Интерес к теме AI и опыт создания _AI_-агентов.
Условия
- Инновационные, амбициозные проекты и задачи, которые развивают: всегда есть возможность прокачать свои навыки в работе и профессионально расти;
- Среда для обмена знаниями – высокая экспертиза внутри команды;
- Сплоченная команда, работающая над общими задачами и умеющая хорошо отдыхать;
- Нашу культуру создают сами сотрудники – мы их слышим и помогаем создавать и поддерживать корпоративные комьюнити по интересам
- Стабильная заработная плата и годовой бонус;
- Гибридный формат работы. Современный IT-офис вблизи Москва-Сити в пяти минутах от метро "Кутузовская", с фитнес залом;
- Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития;
- Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа;
- Гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ;
- Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров;
- Вознаграждение за рекомендацию друзей в команду Сбера.