Технический лидер SRE

Cloud.ru

Технический лидер SRE

Москва, 2-я Звенигородская улица, 28

Описание вакансии

Чем предстоит заниматься:

  • Проектировать, разрабатывать, внедрять и поддерживать SLO/SLI для всех сервисов;
  • Участвовать в устранении инцидентов - в связке со смежными командами устранять сбои и предотвращать их повторение;
  • Участвовать в заполнении и разборе постмортемов;
  • Расследовать причины инцидентов (RCA);
  • Разрабатывать и выполнять меры, направленные на предотвращение повторных инцидентов;
  • Развивать мониторинг и алертинг - разработка, обогащение, настройка метрик, логов, трейсов, алертов, дашбордов, ранбуков (и их регулярный анализ/рефакторинг);
  • Автоматизировать рутинную работу;
  • Ревьюить и помогать дорабатывать DRP, участвовать в качестве координатора в DRT, поддерживать DRP в актуальном состоянии;
  • участвовать в разработке и оптимизации процессов, используемых в работе
  • Встраивать в процессы практики: observability by default, alerting as code, runbooks, SLO/SLA/SLI
  • Помогать командам строить отказоустойчивые сервисы: autoscaling, failover, chaos engineering
  • Обеспечивать внутреннюю экспертизу по стабильности, метрикам, инцидентам и error budgets

Что мы ждем от кандидата:

  • Экспертиза и практический опыт в SRE-практиках: глубокое понимание SLO/SLI, error budget, toil reduction, automation first... И умение применять это практически для обеспечения надежности сервисов;
  • Умение проводить code review для оценки готовности к выходу в production новых функций и сервисов с точки зрения надёжности, наблюдаемости и эффективности, понимание, как изменения в коде влияют на смежные системы и общую стабильность платформы;
  • Понимание, что такое load balancing, circuit breakers, disaster recovery, MTTR, RTO, и т.п.;
  • Экспертные знания в эксплуатации Linux, включая диагностику на уровне ядра (процессы, память, сеть);
  • Опыт работы с Kubernetes и понимание его internal'ов для диагностики сложных проблем;
  • Понимание, как работают сети и умение диагностировать проблемы в их работе;
  • Практический опыт IaаC (Terraform/Ansible) и понимание принципов;
  • Практический опыт построения CI/CD (Gitlab CI, Argo CD);
  • Умение писать автоматизацию и скрипты на Python/Go;
  • Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, Tempo, ELK);
  • Практический опыт в SRE роли.

Будет плюсом, если вы:

  • Знаете, как сделать отказоустойчивый масштабируемый сервис;
  • Имеете опыт написания и ревью технической документации;
  • Имеете опыт коммуникации с разработчиками и бизнесом (объяснение trade-offs между reliability и feature dev);
  • Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения;
  • Имеете практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в production;
  • Знаете, как определять SLI для сервиса, у которого нет исторических данных о надежности;
  • Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов;
  • Имеете опыт внедрения observability-as-code и alerting-as-code.

Посмотреть контакты работодателя

Адрес

Похожие вакансии

Lead SRE

Радюк Екатерина

Удаленная работа
  • Москва

  • до 1500000 RUR

Рекомендуем
Karma8
Удаленная работа
  • Москва

  • от 350000 RUR

Рекомендуем
Айкон Про
Удаленная работа
  • Москва

  • от 350000 RUR

Рекомендуем
Онлайн-школа Фоксфорд

Senior DevOps-инженер / SRE

Онлайн-школа Фоксфорд

Удаленная работа
  • Москва

  • от 400000 RUR

Olima
Удаленная работа
  • Москва

  • от 400000 RUR

Colvir Software Solutions

Технический менеджер

Colvir Software Solutions

Удаленная работа
  • Москва

  • от 400000 RUR

A3F Group
Полный день
  • Москва

  • от 400000 RUR

efin
Удаленная работа
  • Москва

  • от 400000 RUR

Группа Компаний Профинансы Капитал

Технический директор (CTO) в EdTech

Группа Компаний Профинансы Капитал

Удаленная работа
  • Москва

  • от 400000 RUR

efin
Удаленная работа
  • Москва

  • от 400000 RUR

Удаленная работа
  • Москва

  • до 210000 RUR

БАЗАР
Удаленная работа
  • Москва

  • от 400000 RUR

ВТБ Факторинг

IT-лидер / ИТ-лидер

ВТБ Факторинг

Полный день
  • Москва

  • от 400000 RUR

Т-Банк
Полный день
  • Москва

  • от 400000 RUR

AERODISK
Полный день
  • Москва

  • от 400000 RUR

АйтиМедиаСервис
Полный день
  • Москва

  • от 400000 RUR

Интернет-энциклопедия РУВИКИ

SRE – Infrastructure (инфраструктура и автоматизация)

Интернет-энциклопедия РУВИКИ

Удаленная работа
  • Москва

  • от 400000 RUR

АМИКОН
Полный день
  • Москва

  • от 400000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию