Команда обеспечивает стабильный обмен данными через Kafka, REST API и вебхуки, отслеживает и обрабатывает ошибки запросов (retry, dead-letter, ручной перезапуск), анализирует логи и трассирует проблемы на стыках систем. Также пишем скрипты для репроцессинга и проверки целостности данных.
Нам нужен человек, который: разбирается в протоколах HTTP, JSON, XML, gRPC, имеет опыт работы с брокерами сообщений, умеет читать логи и отлаживать вебхуки (Postman, curl, логи сервера).
Чем предстоит заниматься:
Контролировать лаги и глубину очередей в Kafka;
Отслеживать HTTP ошибки (4xx/5xx) и таймауты между системами;
Мониторить Dead Letter Queue — выявлять сообщения, упавшие в ошибку;
Анализировать логи по сквозным идентификаторам (trace_id) для поиска места сбоя;
Воспроизводить проблемные запросы через Postman/cURL;
Проверять валидность JSON/XML и корректность заголовков;
Отлаживать вебхуки и gRPC-вызовы;
Писать скрипты для репроцессинга зависших данных;
Вручную перезапускать сообщения после исправления;
Сверять целостность данных между системами;
Готовить пакет логов и дампов для передачи разработчикам (3-я линия);
Доказывать (с приложением доказательств), что ошибка не на нашей стороне, а у внешнего сервиса;
Обновлять инструкции (Runbook) по типовым инцидентам.
Для нас важно:
Главный принцип SkillStaff - Выбирай!