Платформенный SRE

Cloud.ru

Платформенный SRE

Москва, 2-я Звенигородская улица, 28

Метро: Беговая

Описание вакансии

На этой позиции тебе предстоит:

  • Участие в продуктовой RUN команде
  • Методология наблюдаемости – формировать требования к данным и метрикам; внедрять стандарты надёжности данных и лучшие практики наблюдаемости
  • Анализ потоков и метрик – работать с Prometheus, Loki, OpenTelemetry и др.; выявлять отклонения, узкие места и возможности оптимизации
  • Data QA (контроль качества данных) – проверять полноту, корректность и соответствие требованиям; автоматизировать проверки через Quality Gates (правильность схемы, покрытие метрик, отсутствие дублирования, соответствие SLA/SLO) → оценка качества перед попаданием в прод
  • Тестирование и R&D Ops - писать и поддерживать автоматические тесты компонентов мониторинга; проверять наличие и корректность метрик, логов, трассировок после деплоя; планировать тесты надёжности (отказы узлов, сетевые задержки, падения зависимостей) и канарейковые/теневые развертывания с автоматическим откатом; проводить нагрузочное тестирование, сравнивать результаты с базовым профилем; исследовать новые технологии, собирать метрики,готовить рекомендации; интегрировать Quality Gates в CI/CD  – каждый релиз проходит проверку качества и надёжности; отслеживать эффективность через SRE‑KPIs (MTTR, доля неудачных изменений, коэффициент успешных хаос‑тестов, переход PoC → прод) и публиковать их в дашбордах
  • Разбор инцидентов и RCA – анализировать логи, трассировки, метрики, ETL‑pipeline; документировать причины, фиксировать ошибки, предлагать решения; вести базу знаний (post‑mortem, операционные руководства)
  • Техническая документация – создавать и актуализировать схемы потоков данных, инструкции, описания архитектуры платформы
  • Развитие внутренней платформы мониторинга – улучшать функциональность и производительность; автоматизировать наблюдаемость и оповещения как код ); интегрировать пороги проверки качества в CI/CD для проверки перед деплоем
  • Обучение и передача знаний – готовить обучающие материалы, проводить воркшопы. Способствовать принятию единых практик наблюдаемости

Что мы ждем от кандидата:

  • Знаете, как сделать отказоустойчивый масштабируемый сервис
  • Имеете опыт написания и ревью технической документации Имеете опыт коммуникации с разработчиками и бизнесом (объяснение компромиссов между надёжностью и разработкой функций)
  • Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения
  • Имеете практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в прод
  • Знаете, как определять SLI\SLO для сервиса, у которого нет исторических данных о надежности
  • Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов
  • Имеете опыт внедрения наблюдаемости как код (observability as code), оповещения как код (alerting as code))

Посмотреть контакты работодателя

Адрес

Похожие вакансии

SRE Lead(в Тбилиси)

TRADINGVIEW GEORGIA

  • Москва

  • Не указана

Рекомендуем
RWB (Wildberries & Russ)
  • Москва

  • Не указана

Рекомендуем
ЗащитаИнфоТранс, ФГУП

SRE Engineer/DevOps

ЗащитаИнфоТранс, ФГУП

  • Москва

  • Не указана

Рекомендуем
Р.О.С.Т. - Информационные Технологии

Инженер по надежности SRE

Р.О.С.Т. - Информационные Технологии

  • Москва

  • Не указана

Marfatech
  • Москва

  • Не указана

Online Reservation System
  • Москва

  • Не указана

ТМГТ
  • Москва

  • до 300000 RUR

Криптонит

Data Engineer (SRE)

Криптонит

  • Москва

  • до 300000 RUR

Ок Софт

SRE engineer

Ок Софт

  • Москва

  • до 300000 RUR

Группа компаний Астра

SRE-инженер

Группа компаний Астра

  • Москва

  • до 300000 RUR

Альфа-Мобайл

SRE-инженер

Альфа-Мобайл

  • Москва

  • до 300000 RUR

Gismeteo.ru

Senior DevOps / SRE

Gismeteo.ru

  • Москва

  • до 300000 RUR

МФТИ
  • Москва

  • до 300000 RUR

amoCRM
  • Москва

  • до 300000 RUR

БЮРО 1440

SRE-инженер

БЮРО 1440

  • Москва

  • до 300000 RUR

RWB (Wildberries & Russ)

SRE-инженер в WB Cloud

RWB (Wildberries & Russ)

  • Москва

  • до 300000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию