Head of Monitoring group / Управляющий командой мониторинга

Social Discovery Group

Head of Monitoring group / Управляющий командой мониторинга

Описание вакансии

Social Discovery Group (SDG) is the 3rd largest social discovery company in the world, uniting 60+ brands with 500 million users. We solve the problems of loneliness, isolation, and disconnection by transforming virtual intimacy into the new normal. Our portfolio includes online communication platforms focusing on AI, game mechanics, and video streaming - Dating.com, DateMyAge, Cupid Media, Dil Mil, Kiseki, and others.

We bring together a team of like-minded people and IT professionals specializing in the creation and development of globally impactful social discovery products. Our international team of 1200 professionals and digital nomads works all over the world.

We are looking for a Head of IT Monitoring Team to lead two teams—24/7 Duty Admins (L1) and Technical Monitoring Specialists—and to design, develop, implement, and operate a comprehensive monitoring service that ensures stability, performance, and security of our IT infrastructure and products.

Your main tasks will be:

  • Provide strategic leadership, set team goals aligned with company objectives, and own the roadmap for advancing monitoring capabilities.

  • Build, operate, and evolve the monitoring stack (Zabbix, Grafana, Prometheus and others) with strong support for microservices and cloud monitoring (AWS CloudWatch / Azure Monitor / Google Cloud Monitoring).

  • Ensure timely detection and resolution of alerts, increasing the share of incidents resolved by the L1 duty team without escalation; establish procedures based on ITIL and manage SLAs.

  • Collaborate with IT/product teams to smoothly transition new monitoring solutions into production, and maintain clear operational documentation and runbooks.

  • Develop people: upskill teammates, define a transparent career ladder, and prepare regular reports with operational metrics and team results.

We expect from you:

  • Proven leadership running monitoring/observability teams in companies with high-loaded web systems.

  • Strong knowledge of monitoring protocols, tools (Zabbix, Grafana, Prometheus), methodologies, and best practices; proficiency in monitoring microservices.

  • Hands-on experience with RCA practices for critical events and with cloud monitoring (CloudWatch, Azure Monitor, Google Cloud Monitoring).

  • Excellent communication skills and responsibility; experience building teams, developing people, and giving regular feedback; English B2+.

  • Nice to have: ITIL Foundation certification; familiarity with AIOps and AI-driven monitoring; full-stack development experience to build internal tools, integrations, and dashboards.

What do we offer:

  • REMOTE OPPORTUNITY to work full time;
  • Vacation 28 calendar days per year;
  • 7 wellness days per year (time off) that can be used to deal with household issues, to lie down and recover without taking sick leave;
  • Bonuses up to $5000 for recommending successful applicants for positions in the company;
  • 50% payment for professional training, international conferences and meetings;
  • Corporate discount for English lessons;
  • Health benefits. According to the paychecks, if you are not eligible for corporate medical insurance, the company will compensate you with up to $ 1,000 gross per year per employee. This can be spent on self-purchase of health insurance or on doctor’s fees for yourself and close relatives (spouse, children);
  • Workplace organization. The company provides all employees with an equipped workplace and all the necessary equipment (table, armchair, wifi, etc.) in our offices or co-working locations. In the other locations, the company provides reimbursement of workplace costs up to $ 1000 gross once every 3 years, according to the paychecks. This money can be spent on the rent of the co-working room, on equipping the working place at home (desk, chair, Internet, etc.) during those 3 years;
  • Internal gamified gratitude system: receive bonuses from colleagues and exchange them for merch, team building activities, massage certificates, etc.

Sounds good? Join us now!

RU

Мы ищем Руководителя команды IT-мониторинга, который будет возглавлять две команды — дежурных администраторов 24/7 (L1) и специалистов по техническому мониторингу — и отвечать за разработку, внедрение и развитие комплексной системы мониторинга, обеспечивающей стабильность, производительность и безопасность нашей IT-инфраструктуры и продуктов.

Основные задачи:

  • Обеспечивать стратегическое руководство: ставить цели командам в соответствии с целями компании и формировать дорожную карту развития мониторинга.

  • Проектировать, развивать и поддерживать стек мониторинга (Zabbix, Grafana, Prometheus и др.) с фокусом на микросервисы и облачные решения (AWS CloudWatch / Azure Monitor / Google Cloud Monitoring).

  • Гарантировать своевременное обнаружение и устранение инцидентов, повышать долю обращений, решаемых L1-командой без эскалации; выстраивать процессы по принципам ITIL и контролировать соблюдение SLA.

  • Сотрудничать с IT- и продуктовыми командами, обеспечивая плавный переход новых решений мониторинга в продуктивную среду; поддерживать актуальную документацию и операционные инструкции (runbooks).

  • Развивать команду: повышать квалификацию сотрудников, выстраивать прозрачную карьерную систему, готовить регулярные отчёты с операционными метриками и результатами работы.

Требования:

  • Подтверждённый опыт руководства командами мониторинга/observability в компаниях с высоконагруженными веб-системами.

  • Глубокие знания протоколов, инструментов и методологий мониторинга (Zabbix, Grafana, Prometheus); уверенное понимание мониторинга микросервисной архитектуры.

  • Практический опыт проведения RCA (root cause analysis) критических инцидентов и работы с облачным мониторингом (CloudWatch, Azure Monitor, Google Cloud Monitoring).

  • Отличные коммуникативные навыки, ответственность, опыт построения и развития команд, проведения регулярной обратной связи; английский язык на уровне B2+.

Будет плюсом:

  • Сертификат ITIL Foundation.

  • Опыт работы с AIOps и системами мониторинга на основе ИИ.

  • Навыки full-stack разработки для создания внутренних инструментов, интеграций и дашбордов.

Навыки
  • Zabbix
  • Grafana
  • Prometheus
  • Amazon Web Services
  • Azure
  • ITIL
Посмотреть контакты работодателя

Похожие вакансии

Crystalia Glass LLC
Удаленная работа
  • Армения

  • Не указана

Рекомендуем

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию