Наша распределенная команда Dev насчитывает более 800 специалистов и разрабатывает собственные продукты с 2012 года – рекламные платформы, игровые сервисы и платформы, мобильные игровые и развлекательные приложения, финтех-продукты и решения.
У нас проектно-ориентированный подход, матричная структура с привязкой специалистов к одному проекту, но при этом мы работаем командой. В работе мы применяем SCRUM, Agile.
Сейчас мы ищем инженер по надежности и непрерывности сервисов в нашу команду.
Обязанности:
— Проведение технической оценки надежности сервисов и проектов;
— Анализ архитектуры, зависимостей, критичных компонентов и точек отказа;
— Оценка мониторинга, алертинга, логирования, трассировки, backup/recovery и DR-практик;
— Оценка эксплуатационной готовности сервисов: runbooks, on-call, postmortem, readiness к инцидентам и релизам;
— Анализ изменений и релизов с точки зрения рисков, rollback и устойчивости;
— Участие в разборе инцидентов и подготовке рекомендаций по повышению надежности;
— Формирование требований к SLI/SLO, качеству алертинга и observability-контуру;
— Подготовка технических требований и сопровождение reliability-улучшений совместно с командами DevOps, эксплуатации и разработки;
— Участие в стандартизации recovery/runbook/reliability-практик и повторной валидации сервисов после изменений.
Требования:Будет плюсом:
Система Безопасных Коммуникаций
Москва
Не указана
Лаборатория Касперского
Москва
Не указана