Технический эксперт по развитию наблюдаемости

Cloud.ru

Технический эксперт по развитию наблюдаемости

Москва, 2-я Звенигородская улица, 28

Описание вакансии

Обязанности:

  • Разработка методологии и требования к данным, для обеспечения наблюдаемости
  • Проводить анализ потоков данных и метрик в системах мониторинга и наблюдаемости;
  • Проверять данные на полноту, корректность и соответствие требованиям, использовать подходы Data QA для обеспечения качества и достоверности данных;
  • Детально разбирать инциденты и выявлять причины проблем с данными (исследование логов, трассировок, метрик, работа с ETL), документировать ошибки и вносить предложения по их устранению, вести структурированную базу знаний;
  • Оформлять и поддерживать техническую документацию: схемы потоков, чек-листы, инструкции, описание архитектуры;
  • Принимать участие во внедрении и поддержке стандартов и методик контроля качества данных (Data Reliability/Observability Best Practices);
  • Участвовать в развитии и поддержке in-house платформы мониторинга: вносить улучшения, автоматизировать процессы контроля и проверки данных.
  • Распространять и внедрять эти процессы и стандарты: делиться компетенциями, создавать обучающие материалы\инструкции, консультировать команды разработчиков и сопровождения;

Требования:

  • Знаете, как сделать отказоустойчивый масштабируемый сервис
  • Имеете опыт написания и ревью технической документации
  • Имеете опыт коммуникации с разработчиками и бизнесом (объяснение trade-offs между reliability и feature dev)
  • Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения
  • Имеете практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в production
  • Знаете, как определять SLI для сервиса, у которого нет исторических данных о надежности
  • Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов
  • Имеете опыт внедрения observability-as-code и alerting-as-code

Будет плюсом, если вы:

  • Имеете практический опыт работы SRE
  • Знаете, как сделать отказоустойчивый масштабируемый сервис
  • Имеете опыт написания и ревью технической документации
  • Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения

Посмотреть контакты работодателя

Адрес

Похожие вакансии

Novabev Group
  • Москва

  • Не указана

Рекомендуем
Национальная система платежных карт

Инженер по обеспечению надежности (SRE)

Национальная система платежных карт

  • Москва

  • Не указана

Рекомендуем
Топ Системы
  • Москва

  • Не указана

Т-Банк
  • Москва

  • Не указана

МАГНИТ, Розничная сеть

Технический продакт менедежер

МАГНИТ, Розничная сеть

  • Москва

  • Не указана

Альфа-Банк
  • Москва

  • Не указана

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию