Авито — это тысячи микросервисов и серверов, сложная техническая архитектура и крутые пользовательские продукты. Всё это покрыто метриками, алертами, логами и дашбордами в мониторинге.
Команда Incident & Problem Management помогает Авито повышать стабильность продукта, координирует работу множества команд, если возникают сбои, а также разрабатывает инструменты, которые снижают вероятность появления инцидентов и упрощают процесс решения проблем.
Инженер команды мониторинга контролирует продакшен-среду Авито, реагирует на возникающие события, привлекает ответственных инженеров, а иногда и самостоятельно исправляет проблемы.
Обязанности:
- следить за возникающими событиями системы мониторинга, реагировать на них, улучшать инструменты мониторинга;
- реагировать на алерты в мониторинге;
- принимать новые микросервисы на мониторинг (команда разработки отправляет команде мониторинга реквест, сообщая, что хотела бы мониторить);
- проверять обновлённые конфигурации мониторинга (команд разработки много, править и актуализировать мониторинг может кто угодно; дежурный является аппрувером изменений);
- оперативно фиксировать и оповещать о крупных инцидентах;
- развивать существующие инструменты мониторинга.
Требования:
- имеете уверенный опыт работы с Linux, умеете траблшутить проблемы с ОС и железом;
- работали с системами мониторинга уровня Zabbix, Prometheus, ELK, Grafana и др.;
- имеете опыт работы с Git и базовое понимание работы системы контроля версий.
Условия:
- возможность реализовать свои идеи в проекте с многомиллионной аудиторией;
- талантливая команда, готовая поддержать ваши инициативы;
- мощное железо, дополнительные мониторы и всё, что нужно для продуктивной работы;
- прозрачная система премий, достойная зарплата — размер обсудим на собеседовании;
- личный бюджет на обучение, который можно тратить на книги, курсы и конференции;
- забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист.