Devops (iGaming, удалённо)

Описание вакансии

Мы ищем опытного инженера, который возьмёт на себя ответственность за эксплуатацию и развитие нашей инфраструктуры: от Kubernetes‑кластеров и CI/CD до баз данных PostgreSQL, Redis и систем наблюдаемости. Это роль уровня Senior, с глубоким пониманием продакшен‑эксплуатации, инцидент‑менеджмента и готовностью влиять на архитектурные решения.

Задачи и зона ответственности:
- Эксплуатация и развитие Kubernetes‑кластеров: деплой сервисов, сетевые политики, Ingress/Gateway, HPA, probes (liveness/readiness/startup), настройка requests/limits и классов QoS.
- Диагностика и устранение проблем деплоймента: CrashLoopBackOff/Pending, ошибки конфигурации ресурсов, probes, сетевых политик и зависимостей.
- Построение и поддержка CI/CD на GitHub Actions: пайплайны lint/test/build, сборка и публикация Docker‑образов в GHCR, релизный флоу с SemVer и rc‑тегами.
- Ведение GitOps‑процессов: управление манифестами через FluxCD/Helm/Kustomize, автоматизация обновления образов, настройка webhook‑триггеров.
- Эксплуатация PostgreSQL: управление схемами/search_path, базовый анализ планов запросов, настройка миграций (golang‑migrate), работа с PgBouncer и расчёт пулов подключений при автоскейле.
- Эксплуатация Redis (включая sentinel): настройка репликации, переключение мастера, корректная работа приложений при фейловере, использование Redis как кэша и стора.
- Управление секретами: внедрение и сопровождение решений вроде sealed‑secrets / external‑secrets / Vault, политика ротации секретов и запрет хранения секретов в git/открытых манифестах.
- Настройка и развитие observability: Prometheus‑метрики, Grafana, Alertmanager, логирование и трейсинг; проектирование метрик и алертинга на основе SLI/SLO/SLA.
- Расследование и устранение инцидентов в продакшене: деградация производительности, ошибки деплоя и миграций, сетевые проблемы; проведение RCA и пост‑мортемов, инициирование улучшений.
- Участие в ревью инфраструктурных изменений, формирование и поддержка лучших практик для команд разработки.
- Участие в планировании capacity и DR‑подходов: выбор RPO/RTO, резервные копии и восстановление, сценарии отказоустойчивости (мульти‑кластер/мульти‑регион, тестирование планов DR).

Требования:
- Уверенная эксплуатация Linux: диагностика диска/inode, памяти/OOM, CPU/load, сети; понимание работы systemd, умение пользоваться journalctl; уверенная работа в шелле без подсказок.
- Docker: опыт сборки multi‑stage образов, создания минимальных и безопасных контейнеров (non‑root), грамотное использование кэша слоёв, корректная обработка сигналов процессом PID 1; docker‑compose для локальной разработки.
- Kubernetes: уверенная работа с Deployment/Service/HPA, probes, requests/limits и QoS; опыт разборов CrashLoopBackOff/Pending, настройка namespaces, RBAC, Secret/ConfigMap.
- CI/CD: практический опыт построения пайплайнов, работы с secrets, релизным циклом, Git‑флоу и ревью инфраструктурных изменений через pull‑request.
- GitOps: практический опыт работы с Helm‑чартами, FluxCD или аналогичными инструментами, Kustomize‑overlays для разных сред (stage/prod).
- Эксплуатация PostgreSQL и Redis на продакшене: базовая оптимизация, понимание типичных проблем и подходов к их устранению.
- Понимание сетей и TLS: маршрутизация через Ingress/Gateway (желательно опыт с Envoy/Gateway API), работа с доменами, сертификатами и пробросом портов.
- Практический опыт настройки и эксплуатации Prometheus/Grafana/Alertmanager или аналогичных систем мониторинга и алертинга.
- Понимание концепций SLI/SLO/SLA и опыт их использования для настройки алертинга и оценки качества работы сервисов.

Будет плюсом:
- Опыт эксплуатации Go‑сервисов: сборка с CGO_ENABLED=0, организация graceful shutdown, запуск HTTP и gRPC в одном бинаре.
- Опыт межсервисного взаимодействия через gRPC и HMAC, понимание паттернов межсервисной аутентификации.
Terraform / другие IaC‑инструменты для декларативного управления облачными ресурсами (AWS, Yandex Cloud и др.).
- Практика с OAuth2/OIDC и WebAuthn на уровне эксплуатации (домены, redirect URIs, RP ID, JWKS, работа с ключами подписи).
- Глубокий опыт с PgBouncer, настройкой резервного копирования PostgreSQL, проектированием и тестированием DR‑планов (с явным RPO/RTO).
- Настройка локального dev‑окружения для команды (Air, Delve или аналоги), помощь разработчикам в отладке и тестировании сервисов.

Условия:
- Международный продукт в сфере iGaming;
- Полная занятость (full‑time), стандартный график 5/2 с гибким началом рабочего дня;
- Полностью удалённый формат, без привязки к офису; работа с распределённой командой;
- Конкурентный уровень компенсации.