Группа мониторинга - "глаза" всей службы ИТ, команда отвечает за настройку и отслеживание алертов, инцидент-менеджмент. Дежурный инженер контролирует бесперебойность работы всех ИТ-сервисов компании: корпоративных сайтов и порталов, приложения для курьеров, функций личного кабинета клиентов и других систем
Чем предстоит заниматься:
- осуществлять мониторинг состояния сервисов и инфраструктуры с использованием Prometheus, Grafana, AlertManager, регистрировать инциденты в соответствии с регламентом
- проводить первичную диагностику и оценку влияния на пользователей на основе метрик и обращений: чтение и интерпретация графиков основных метрик, выполнение базовых запросов в Prometheus, поиск и анализ информации в логах
- эскалировать информацию об инциденте на ответственных лиц и запускать коммуникации по решению инцидента, фиксировать хронологию, публиковать статусы
- вести и актуализировать документации, включая runbooks
- участвовать в постмортем-анализе инцидентов по запросу коллег
Для нас важно:
- опыт работы инженером мониторинга или инженером поддержки прикладных систем от 1 года обязателен
- знание основ мониторинга: понимание, что такое метрики, логи и алертинг, умение читать и интерпретировать дашборды в системах, подобных Grafana, базовое понимание типов метрик
- базовые знания Linux (файловая система, процессы, работа с логами), понимание основ сетевых протоколов (HTTP/S, TCP/IP), умение пользоваться ping, traceroute, базовое представление о работе DNS (A-записи)
- преимуществом будут опыт написания простых скриптов для автоматизации рутинных задач, опыт работы с Prometheus и AlertManager, знакомство с системами логирования
- способность быстро обучаться и работать в условиях неполной информации, внимательность к деталям, умение четко и структурированно излагать информацию
Как мы работаем:
- 24/7 создаем продукты и сервисы, которые делают удобнее жизнь 23 млн клиентов в 40 странах мира
- являемся ИТ-компанией с подтвержденной аккредитацией
- заботимся о твоем благополучии: ДМС со стоматологией после 3 месяцев работы, доступ к платформе Понимаю, корпоративные скидки в Bestbenefits
- создали прозрачную систему грейдов с возможностью роста в SRE, регулярно оцениваем прогресс и даем обратную связь, выделяем наставника для прокачки скиллов
- постоянно обмениваемся опытом и делимся экспертизой во внутренних гильдиях, обучаем спикерству, помогаем в подготовке статей и выступлений