Разработка методологии и требования к данным, для обеспечения наблюдаемости
Проводить анализ потоков данных и метрик в системах мониторинга и наблюдаемости;
Проверять данные на полноту, корректность и соответствие требованиям, использовать подходы Data QA для обеспечения качества и достоверности данных;
Детально разбирать инциденты и выявлять причины проблем с данными (исследование логов, трассировок, метрик, работа с ETL), документировать ошибки и вносить предложения по их устранению, вести структурированную базу знаний;
Оформлять и поддерживать техническую документацию: схемы потоков, чек-листы, инструкции, описание архитектуры;
Принимать участие во внедрении и поддержке стандартов и методик контроля качества данных (Data Reliability/Observability Best Practices);
Участвовать в развитии и поддержке in-house платформы мониторинга: вносить улучшения, автоматизировать процессы контроля и проверки данных.
Распространять и внедрять эти процессы и стандарты: делиться компетенциями, создавать обучающие материалы\инструкции, консультировать команды разработчиков и сопровождения;
Требования:
Знаете, как сделать отказоустойчивый масштабируемый сервис
Имеете опыт написания и ревью технической документации
Имеете опыт коммуникации с разработчиками и бизнесом (объяснение trade-offs между reliability и feature dev)
Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения
Имеете практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в production
Знаете, как определять SLI для сервиса, у которого нет исторических данных о надежности
Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов
Имеете опыт внедрения observability-as-code и alerting-as-code
Будет плюсом, если вы:
Имеете практический опыт работы SRE
Знаете, как сделать отказоустойчивый масштабируемый сервис
Имеете опыт написания и ревью технической документации
Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения