Мы - инновационная компания, создающая полную экосистему для промышленного майнинга криптовалют. Мы работаем с передовыми системами воздушного, жидкостного и иммерсионного охлаждения, выпускаем custom-прошивки для ASIC-майнеров и развиваем собственную облачную платформу мониторинга и управления оборудованием. Наши решения помогают дата-центрам и майнинг-отелям по всему миру максимизировать энергоэффективность и хешрейт.
Мы формируем новое направление - Platform & Reliability Engineering Unit. Наши цели: предоставить командам разработки надежную и удобную внутреннюю платформу внутри корпоративной ИТ-инфраструктуры, а также обеспечивать стабильную работу, высокую доступность и непрерывное развитие наших программных SaaS продуктов.
Мы ищем Lead-инженера, который возглавит это направление: возьмет на себя техническое лидерство, архитектуру инфраструктуры и в перспективе сформирует небольшую, но сильную команду (1-2 DevOps-инженера под вашим менторством и кураторством).
Чем предстоит заниматься:
- DevOps & SRE: Проектирование, развертывание и развитие production Kubernetes-кластеров и Service Mesh (Istio). Создание удобных абстракций и self-service инструментов для разработчиков. Описание и управление облачной инфраструктурой на базе DigitalOcean (в перспективе - другие провайдеры). Развёртывание и администрирование GitLab, конфигурирование, развитие и оптимизация пайплайнов доставки кода, внедрение лучших практик безопасности и автоматизации тестирования инфраструктуры. Построение прозрачной системы наблюдаемости с использованием современного стека, в идеале - внедрение SRE-практик.
- Team Leadership & Mentoring: Формирование юнита с нуля. В ближайшее время - найм, онбординг и техническое менторство 1-2 DevOps-инженеров. Выстраивание процессов внутри команды и кросс-командного взаимодействия с разработкой.
Наши ожидания (Hard Skills):
- Kubernetes & Ecosystem: Глубокое понимание архитектуры K8s, опыт траблшутинга сложных инцидентов, уверенное владение Helm, понимание принципов работы операторов.
- Service Mesh: Практический опыт внедрения и поддержки Istio (маршрутизация, mTLS, rate limiting, canary-релизы).
- CI/CD: Экспертное знание GitLab CI/CD (оптимизация пайплайнов, создание переиспользуемых шаблонов, интеграция проверок безопасности).
- IaC & Configuration Management: Уверенное владение Terraform (создание собственных модулей, управление стейтом, CI для инфраструктуры) и Ansible.
- Cloud: Опыт работы с DigitalOcean (или глубокое понимание AWS/GCP/Azure с готовностью работать в реалиях DO или других провайдеров).
- Observability: Понимание разницы между метриками, логами и трейсами. Опыт развертывания и поддержки LGTM-стека (Loki, Grafana, Tempo, Mimir) и OpenSearch.
- SRE-майндсет: Понимание концепций высокодоступных систем (High Availability), Disaster Recovery, опыт настройки алертинга.
- Linux & Networking: Отличное знание Linux, сетевых протоколов (TCP/IP, DNS, HTTP/S, BGP) и принципов информационной безопасности.
Лидерские качества (Soft Skills): Опыт наставничества, технического лидерства или управления небольшой командой. Умение аргументированно отстаивать архитектурные решения перед CTO и командами разработки. Системное мышление: вы видите картину целиком и понимаете, как отказ одного компонента влияет на весь сервис. Готовность брать на себя ответственность за создание процессов там, где их еще нет.
Будет большим плюсом:
- Навыки программирования (Go, Python или Bash) для написания собственных утилит, контроллеров K8s или автоматизаций.
- Опыт внедрения парадигмы GitOps (ArgoCD, Flux).
- Опыт внедрения MLOps (Kubeflow и др.).
- Опыт работы с DevSecOps-практиками и инструментами сканирования образов/кода.
- Понимание принципов работы баз данных (PostgreSQL, Redis, ClickHouse) на уровне администрирования и резервного копирования в K8s.
Что мы предлагаем: