Site Reliability Engineer (SRE) / Linux

Москва, Барабанный переулок, 4с3

Метро: Электрозаводская

Описание вакансии

Международной хостинговой компании требуется специалист в команду администрирования и DevOps.

Требуется совокупный опыт DevOps / SRE в продуктовой ИТ-среде от 3 лет, включая поддержку и развитие production-инфраструктуры.

Мы рассматриваем только резюме заинтересованных кандидатов.

Просим приложить сопроводительное письмо, начинающееся с «Работа в Hostkey».

Коротко о нас: Площадки в России, Нидерландах, США, Финляндии, Германии , Исландии и Турции. 15000+ физических серверов, кластеры виртуализации на 20000+ VPS, HPC кластер, своя сборка и проектирование серверов, 90+ человек в нескольких офисах. Работаем с 2008 года.

Стек технологий:

CentOS (своя инфраструктура, плюс пул основных ОС для клиентов), GNU/Linux, Ansible, HashiCorp Vault, Kubernetes, Gitlab CI, Prometheus, Grafana,ELK-стек, Kafka, RabbitMQ и пр. Elasticsearch.

Языки: Go

Обязанности:

Обеспечение стабильной и надежной работы production-инфраструктуры;
Поддержка и развитие CI/CD процессов (blue/green, canary деплой, rollback, минимизация даунтайма);
Мониторинг и наблюдаемость: настройка и эксплуатация Prometheus, Grafana, Zabbix, ELK/EFK, систем трейсинга и алертинга;
Участие в проектировании и эксплуатации отказоустойчивых и масштабируемых систем (load balancing, failover, резервирование);
Capacity planning — прогнозирование нагрузки, анализ производительности и оптимизация ресурсов;
Управление инцидентами: быстрое реагирование, анализ первопричин (RCA), документирование;
Работа с базами данных и брокерами сообщений (PostgreSQL, MySQL, Redis, RabbitMQ и др.);
Поддержка стандартов надежности: SLO/SLI/SLA, error budget;
Внедрение и развитие инструментов автоматизации инфраструктуры (Terraform, Ansible);
Тесное взаимодействие с командами разработки для повышения надежности и наблюдаемости сервисов.

Требования:

Опыт работы DevOps / SRE от 3 лет в production-среде;
Глубокие знания Linux (диагностика, оптимизация, безопасность);
Понимание сетевых протоколов и принципов: TCP/IP, маршрутизация, NAT;
Уверенная работа с Kubernetes, включая диагностику и траблшутинг;
Опыт разработки скриптов на Bash, Python или Go;
Владение инструментами инфраструктурной автоматизации: Terraform, Ansible;
Опыт настройки Prometheus, Grafana, Zabbix;
Работа с логами и системами типа ELK/EFK;
Знание принципов трейсинга, построения метрик, алертинга и дашбордов;
Практический опыт внедрения и эксплуатации CI/CD пайплайнов;
Знание подходов blue/green, canary deployment, rollback;
Опыт проектирования и поддержки отказоустойчивых систем;
Настройка балансировки нагрузки, резервирования, failover;
Навыки capacity planning и оптимизации ресурсов;
Опыт работы с SQL и NoSQL системами (PostgreSQL, MySQL, Redis);
Знание брокеров сообщений (RabbitMQ и аналоги);
Навыки incident management, root cause analysis;
Опыт работы с метриками надежности (SLO, SLI, SLA);
Умение документировать и автоматизировать процессы реагирования.

Будет плюсом:

Опыт написания Helm чартов на проде;
Деплой и поддержка Kubernetes кластеров в продакшен окружении;
Опыт работы с FluxCD, ArgoCD, Istio, Terraform, HashiCorp Vault;
Опыт работы с любой виртуализацией, PXE, cloud-init;
Примеры кода.

Условия:

Крутые проекты, возможность профессионального и личностного роста;
Работа в команде с экспертами, вместе с которыми вы сможете реализовать свои идеи и инициативы;
Обучение по профильным направлениям за счет компании;
Performance Review каждые 6 месяцев (по итогам проводится грейд ап);
Возможность влиять на выбор инструментов и решений в рамках продукта и всей компании;
Отсутствие бюрократии, быстрое принятие решений внутри компании;
Мы - аккредитованная IT-компания;
Офис: город Москва, метро Электрозаводская 5 минут пешком или удаленная работа из произвольного места;
График работы: понедельник-пятница, 40 часов в рамках еженедельных спринтов.