Международной хостинговой компании требуется специалист в команду администрирования и DevOps.
Требуется совокупный опыт DevOps / SRE в продуктовой ИТ-среде от 3 лет, включая поддержку и развитие production-инфраструктуры.
Мы рассматриваем только резюме заинтересованных кандидатов.
Просим приложить сопроводительное письмо, начинающееся с «Работа в Hostkey».
Коротко о нас: Площадки в России, Нидерландах, США, Финляндии, Германии , Исландии и Турции. 15000+ физических серверов, кластеры виртуализации на 20000+ VPS, HPC кластер, своя сборка и проектирование серверов, 90+ человек в нескольких офисах. Работаем с 2008 года.
Стек технологий:
CentOS (своя инфраструктура, плюс пул основных ОС для клиентов), GNU/Linux, Ansible, HashiCorp Vault, Kubernetes, Gitlab CI, Prometheus, Grafana,ELK-стек, Kafka, RabbitMQ и пр. Elasticsearch.
Языки: Go
Обязанности:
- Обеспечение стабильной и надежной работы production-инфраструктуры;
- Поддержка и развитие CI/CD процессов (blue/green, canary деплой, rollback, минимизация даунтайма);
- Мониторинг и наблюдаемость: настройка и эксплуатация Prometheus, Grafana, Zabbix, ELK/EFK, систем трейсинга и алертинга;
- Участие в проектировании и эксплуатации отказоустойчивых и масштабируемых систем (load balancing, failover, резервирование);
- Capacity planning — прогнозирование нагрузки, анализ производительности и оптимизация ресурсов;
- Управление инцидентами: быстрое реагирование, анализ первопричин (RCA), документирование;
- Работа с базами данных и брокерами сообщений (PostgreSQL, MySQL, Redis, RabbitMQ и др.);
- Поддержка стандартов надежности: SLO/SLI/SLA, error budget;
- Внедрение и развитие инструментов автоматизации инфраструктуры (Terraform, Ansible);
- Тесное взаимодействие с командами разработки для повышения надежности и наблюдаемости сервисов.
Требования: - Опыт работы DevOps / SRE от 3 лет в production-среде;
- Глубокие знания Linux (диагностика, оптимизация, безопасность);
- Понимание сетевых протоколов и принципов: TCP/IP, маршрутизация, NAT;
- Уверенная работа с Kubernetes, включая диагностику и траблшутинг;
- Опыт разработки скриптов на Bash, Python или Go;
- Владение инструментами инфраструктурной автоматизации: Terraform, Ansible;
- Опыт настройки Prometheus, Grafana, Zabbix;
- Работа с логами и системами типа ELK/EFK;
- Знание принципов трейсинга, построения метрик, алертинга и дашбордов;
- Практический опыт внедрения и эксплуатации CI/CD пайплайнов;
- Знание подходов blue/green, canary deployment, rollback;
- Опыт проектирования и поддержки отказоустойчивых систем;
- Настройка балансировки нагрузки, резервирования, failover;
- Навыки capacity planning и оптимизации ресурсов;
- Опыт работы с SQL и NoSQL системами (PostgreSQL, MySQL, Redis);
- Знание брокеров сообщений (RabbitMQ и аналоги);
- Навыки incident management, root cause analysis;
- Опыт работы с метриками надежности (SLO, SLI, SLA);
- Умение документировать и автоматизировать процессы реагирования.
Будет плюсом:
- Опыт написания Helm чартов на проде;
- Деплой и поддержка Kubernetes кластеров в продакшен окружении;
- Опыт работы с FluxCD, ArgoCD, Istio, Terraform, HashiCorp Vault;
- Опыт работы с любой виртуализацией, PXE, cloud-init;
- Примеры кода.
Условия:
- Крутые проекты, возможность профессионального и личностного роста;
- Работа в команде с экспертами, вместе с которыми вы сможете реализовать свои идеи и инициативы;
- Обучение по профильным направлениям за счет компании;
- Performance Review каждые 6 месяцев (по итогам проводится грейд ап);
- Возможность влиять на выбор инструментов и решений в рамках продукта и всей компании;
- Отсутствие бюрократии, быстрое принятие решений внутри компании;
- Мы - аккредитованная IT-компания;
- Офис: город Москва, метро Электрозаводская 5 минут пешком или удаленная работа из произвольного места;
- График работы: понедельник-пятница, 40 часов в рамках еженедельных спринтов.