Наша распределенная команда Dev насчитывает более 800 специалистов и разрабатывает собственные продукты с 2012 года – рекламные платформы, игровые сервисы и платформы, мобильные игровые и развлекательные приложения, финтех-продукты и решения.
У нас проектно-ориентированный подход, матричная структура с привязкой специалистов к одному проекту, но при этом мы работаем командой. В работе мы применяем SCRUM, Agile.
Обязанности:
Прием и классификация инцидентов от команды мониторинга; первичный анализ и эскалация;
Анализ повторяющихся проблем, выявление закономерностей и подготовка предложений по снижению количества инцидентов;
Проведение инцидент-менеджмента совместно с ответственными командами инфраструктуры и разработки;
Организация постинцидентного анализа (Post-Mortem), документирование и контроль внедрения корректирующих мер;
Мониторинг выполнения SLA и контроль корректности реагирования на инциденты;
Контроль и ведение аналитических реестров;
Участие в улучшении процессов управления инцидентами и процедур аварийного реагирования;
Поддержка системы отчетности по доступности сервисов и ключевых метрик;
Взаимодействие с бизнес-подразделениями для оценки влияния инцидентов на сервисы и пользователей.
Требования:
Базовое понимание инфраструктуры: сети, Kubernetes, виртуализация, базы данных, общие принципы работы приложений;
Опыт работы в инцидент-менеджменте, мониторинге или IT-операциях от 2 лет;
Навыки анализа инцидентов, выявления корневых причин и подготовки отчетов;
Опыт работы с ITSM процессами;
Опыт работы с системами мониторинга, логирования и инструментами тикетирования (Jira, Grafana, Kibana);
Умение вести переговоры, согласовывать действия и находить решения в условиях срочных инцидентов.
Будет плюсом:
Опыт работы в командах доступности и непрерывности, SRE или DevOps;
Знание принципов SRE;
Навыки автоматизации процессов;
Английский язык от уровня B1.
Мы предлагаем:
Гибкий график - лояльное начало дня с 9.00 до 11.00 по МСК, 8 часов рабочий день;