Наша распределенная команда Dev насчитывает более 800 специалистов и разрабатывает собственные продукты с 2012 года – рекламные платформы, игровые сервисы и платформы, мобильные игровые и развлекательные приложения, финтех-продукты и решения.
У нас проектно-ориентированный подход, матричная структура с привязкой специалистов к одному проекту, но при этом мы работаем командой. В работе мы применяем SCRUM, Agile.
Сейчас мы ищем инженер по надежности и непрерывности сервисов в нашу команду.
Обязанности:
— Проведение технической оценки надежности сервисов и проектов;
— Анализ архитектуры, зависимостей, критичных компонентов и точек отказа;
— Оценка мониторинга, алертинга, логирования, трассировки, backup/recovery и DR-практик;
— Оценка эксплуатационной готовности сервисов: runbooks, on-call, postmortem, readiness к инцидентам и релизам;
— Анализ изменений и релизов с точки зрения рисков, rollback и устойчивости;
— Участие в разборе инцидентов и подготовке рекомендаций по повышению надежности;
— Формирование требований к SLI/SLO, качеству алертинга и observability-контуру;
— Подготовка технических требований и сопровождение reliability-улучшений совместно с командами DevOps, эксплуатации и разработки;
— Участие в стандартизации recovery/runbook/reliability-практик и повторной валидации сервисов после изменений.
Требования: - Опыт работы в ролях SRE, DevOps, OPS, Production Engineering или архитектуры.
- Умение разбираться в устройстве сервисов и задавать корректные технические вопросы.
- Опыт документирования архитектуры и понимание модели C4.
- Практическое понимание надёжности сервисов (бэкапы, DR, мониторинг, логирование, релизы, rollback, инциденты).
- Развитые коммуникационные навыки и опыт проведения интервью.
- Умение формулировать выводы и фиксировать факты.
- Навыки работы с доказательной базой (дашборды, репозитории, конфигурации, регламенты).
Будет плюсом:
- Опыт проведения технических аудитов и разработки чек-листов.
- Опыт создания и внедрения внутренних стандартов.
- Опыт работы с Prometheus, Grafana, ELK/OpenSearch, Kubernetes, CI/CD.
- Понимание SLI, SLO и Error Budget.
Условия: - Оформление в штат компании или контракт, несколько способов выплат;
- Remote из любого гео или гибридный офис;
- Гибкий график - лояльное начало дня с 9.00 до 11.00 по МСК, 8 часов рабочий день + перерывы на отдых на свое усмотрение;
- Возможность выбрать оборудование, доставим на дом в РФ;
- Развитие в карьере - внутренняя система грейдов с пересмотром раз в год по Performance Review;
- Непрерывное обучение: у нас есть внутренняя Академия, а также много партнёрских программ, которые поделятся знаниям не только в профессиональной сфере, но и поддержат твои хобби;
- Развитая культура коммуникаций: турниры онлайн и оффлайн, тех комьюнити, митапы, co-working дни, встречи и пати на летней веранде, тимбилдинги;
- Классный офис на Тульской с видом на Москву-реку и летней верандой.