Мы ищем инженера SRE для обеспечения надежности, доступности и производительности мобильной платформы и API. Роль предполагает активное участие во второй линии поддержки (L2), глубокую диагностику инцидентов в production-среде и тесное взаимодействие с командами разработки, инфраструктуры и безопасности.
Основные обязанности
Надежность и доступность сервисов
- Обеспечение соблюдения SLA/SLO для API мобильного приложения и критических пользовательских сервисов
- Глубокая диагностика и устранение сложных инцидентов в production в роли L2 поддержки
- Разработка, актуализация и поддержка процедур восстановления (runbooks / playbooks)
- Проведение анализа инцидентов (post-mortem) и проактивная работа по предотвращению повторных сбоев
- Участие в инициативах по повышению отказоустойчивости, включая Chaos Engineering
Производительность и управление capacity
- Анализ и оптимизация производительности API и микросервисов (латентность, время отклика)
- Мониторинг трендов нагрузки, участие в планировании масштабирования инфраструктуры
- Выявление и устранение узких мест (БД, кэши, сетевые задержки)
Автоматизация и DevOps-практики
- Разработка и поддержка скриптов и инструментов для автоматизации рутинных операций (деплой, мониторинг, восстановление)
- Совместная работа с командами разработки по улучшению CI/CD и повышению надежности релизов
- Автоматизация реагирования на типовые инциденты (auto-remediation)
Поддержка и кросс-функциональное взаимодействие
- Работа во второй линии поддержки (L2), участие в ротации дежурств (on-call)
- Консультирование команд разработки по вопросам эксплуатации, наблюдаемости и надежности систем
- Взаимодействие с командами инфраструктуры, информационной безопасности и бизнес-подразделениями
- Работа с внешними партнерами и провайдерами (API, push-уведомления и др.)
Требования к кандидату
Обязательные технические навыки и опыт
- Опыт работы от 1 года в роли SRE или DevOps-инженера в production-среде
- Понимание микросервисной архитектуры, REST и gRPC API
- Практический опыт работы с Kubernetes (production): развертывание, управление, отладка
- Опыт работы с системами мониторинга и алертинга (Prometheus, VictoriaMetrics, Grafana), уверенное владение PromQL
- Понимание сетевых протоколов и технологий (TCP/IP, DNS, HTTP/HTTPS, SSL/TLS)
- Опыт работы с базами данных PostgreSQL и Redis, навыки базовой диагностики
- Знание принципов Infrastructure as Code (Terraform, Ansible)
- Опыт работы с системами централизованного логирования
Желательные знания и опыт
- Базовое понимание Java и JVM для диагностики backend-сервисов
- Опыт работы с мобильной инфраструктурой (APNS, FCM)
- Понимание специфики банковских и финансовых систем, интеграций и платежных шлюзов
- Опыт работы с облачными провайдерами или локальными ЦОД
- Знание инструментов управления секретами (HashiCorp Vault)
- Навыки программирования на Python и/или Go
Личные качества
- Системное и аналитическое мышление, умение работать в условиях неопределенности и высокой нагрузки
- Развитые коммуникативные навыки и способность к командной работе
- Проактивность и ориентация на постоянное улучшение систем и процессов
- Ответственность, внимательность к деталям, благонадежность
- Умение структурированно документировать решения и процессы
- Готовность к участию в on-call дежурствах
Мы предлагаем
- Уникальную возможность участвовать в проектах цифровой трансформации крупного банка
- Работа в стабильной и масштабной организации
- Профессиональное развитие и обучение современным технологиям
- Чёткие карьерные траектории внутри IT-департамента
- Современный офис, частичная медицинская страховка, оплачиваемый отпуск
- Конкурентную заработную плату выше рынка (обсуждается по результатам собеседования)
- График работы: с 9:00 до 18:00, 5/2
- Премии на государственные и корпоративные праздники
- Доступ к спортивному комплексу для сотрудников