Разрабатывать систему доставки алертов и управления дежурствами;
Разрабатывать систему написания и управления алертами;
Разрабатывать дискавери системы серверов и сетевых устройств;
Собирать данные с различных компонентов системы – cетевых устройств, inventory и внешних аналитических систем;
Обеспечивать команды инструментами для отладки и мониторинга – дешбордами и алертами;
Внедрять мониторинга там, где его нет: склады, доставка, почтоматы и т.д.;
Разрабатывать экспортеры под Prometheus, их сборка и деплой в Kubernetes.
Интегрировать с существующей системой мониторинга на базе Prometheus, Alertmanager и Thanos;
Консультировать разработчиков и технических специалистов по интеграции с системой мониторинга и сопровождение интеграции.
Вы умеете писать понятный и тестируемый код на Go;
Вы свободно пользуетесь терминалом в Linux и понимаете, куда посмотреть, когда сервер тупит;
Вы работали с распределёнными системами (микросервисы, service discovery) и соответствующими инструментами (Docker, orchestration systems);
Вы понимаете принципы обеспечения высокой доступности приложений и слышали о балансировщиках нагрузки и rate-limiter'ах.
Вы работали с системами мониторинга (Prometheus, Nagios, Zabbix);
Вы работали с реляционными БД;
Будет плюсом:
Вам интересен анализ и решение проблем в масштабных системах, состоящих из большого числа компонентов;
Вы умеете дебажить и оптимизировать код, автоматизировать рутинные операции;
Умеете работать с Helm-сhart, Qbec,
Опыт работы с Kafka, Redis;
Опыт работы с системами трейсинга и логирования;
Мы предлагаем: