Привет! Я Алексей, тимлид команды Deploy в TradingView. Мы занимаемся доставкой готового кода до конечного потребителя и следим за тем, чтобы все сервисы работали стабильно 24/7/365. Мониторинг — это наш первый рубеж обороны: он помогает нам вовремя замечать проблемы и быстро реагировать на инциденты.
Сейчас мы ищем опытного эксперта по системам мониторинга, который возьмёт на себя развитие и поддержку масштабной инфраструктуры на базе Zabbix, Prometheus и Grafana.
Задачи — от настройки логики триггеров и корреляции алертов до автоматизации и внедрения IaC-подходов.
Требования и стек технологий:
Опыт проектирования и поддержки отказоустойчивых систем мониторинга
Опыт работы от 4 лет в мониторинге, из них не менее 2 лет с Zabbix
Prometheus, Grafana — настройка, визуализация, интеграции
Python — написание скриптов и утилит для автоматизации
CI/CD — опыт работы с GitLab, Jenkins
IaC / Automation — Terraform, Ansible, Helm
Containers — Docker, Kubernetes
Понимание принципов построения alerting logic и корреляции событий
Основные задачи:
Разработка и оптимизация логики срабатывания триггеров в Zabbix
Настройка корреляции аварий и алертов, снижение количества ложных срабатываний
Поддержка и развитие инфраструктуры мониторинга (высокая доступность, отказоустойчивость, масштабируемость)
Автоматизация развёртывания и конфигурации компонентов мониторинга
Интеграция с CI/CD и другими системами (оповещения, тикетинг и др.)
Разработка скриптов и инструментов на Python для автоматизации задач
Настройка и поддержка дашбордов в Grafana
Развитие инфраструктуры как кода (IaC)
Мы готовы предложить вам:
Тбилиси
до 5500 USD