Управление командой SRE (≈5 инженеров): постановка задач, развитие, планирование загрузки
Формирование, внедрение и контроль соблюдения SLA платформы
Организация процессов инцидент-менеджмента: обработка обращений, on-call и дежурства, коммуникация с заказчиками и стейкхолдерами
Развитие наблюдаемости платформы: стандарты логирования, метрик и трассировки, настройка алертинга без шума, создание и поддержка дашбордов
Обеспечение производительности и масштабируемости: профилирование, оптимизация, планирование ёмкости и ресурсов
Обеспечение отказоустойчивости: разработка и тестирование DR-сценариев, контроль RTO/RPO, организация бэкапов и регулярных проверок восстановления
Контроль надежности компонентов data platform: стриминг, репликация, ETL-процессы, хранилища, контроль задержек, потерь и деградаций
Обеспечение безопасности как части надежности: контроль доступа по принципу наименьших привилегий
Взаимодействие с DevOps, продуктовыми командами и экспертными группами
Что мы ждем от вас
Опыт работы 5+ лет в SRE / DevOps / платформенной эксплуатации
Опыт 2+ года в роли тимлида или техлида
Глубокие знания: Linux сетей (L3/L4, DNS, TLS, BGP) контейнеризации и Kubernetes
Практический опыт построения мониторинга и алертинга: метрики, логи, трейсы SLA и дежурные процессы
Опыт эксплуатации и обеспечения надежности data-платформ: S3-совместимые хранилища Iceberg, Hive Metastore Kafka, Flink, Spark, Airflow SQL-движки / Hadoop-экосистема
Навыки performance engineering: анализ CPU / IO / сети поиск узких мест и деградаций capacity planning
Сильные коммуникационные навыки: прозрачная коммуникация в инцидентах управление ожиданиями и приоритетами заказчиков
Будет плюсом
Опыт работы с мульти-ЦОД архитектурами
Практика построения репликации и DR-сценариев: S3 / MinIO PostgreSQL Kafka
Стабильный и прозрачный доход: размер заработной платы обсуждается по итогам собеседования + квартальная премия по результатам KPI
Гибридный формат, либо полная удалёнка, а также уютный ИТ-хаб в Москве, Санкт-Петербурге, Екатеринбурге, сезонный коворкинг в Сочи
Сложные и интересные задачи, современный стек технологий
Заботу о вашем здоровье: программа ДМС с первых дней работы, куда входит стоматология, обслуживание в лучших клиниках города, страхование и компенсация 10-ти дней больничного
Возможность вертикального и горизонтального карьерного роста: регулярно проходят тренинги, вебинары, митапы и демо-дни
Оплату посещения профильных конференций и курсов, помогаем с подготовкой к публичным выступлениям и написанием статей на Хабр
Доступ к бесплатным корпоративным библиотекам Alpina Digital, MyBook и бизнес-изданий
Предложения от Банка только для сотрудников: собственные спортзалы (Москва, Санкт-Петербург, Екатеринбург), а также скидки на услуги туристических агентств, продукты питания, в рестораны, бары, магазины