ArtWorkout — мобильное приложение (iOS + Android), учим рисовать через интерактивные уроки с оценкой работы в реальном времени. Растём через контент в соцсетях: у нас большая команда креаторов, и это основной источник трафика.
Команда: ~30 человек в продукте + 200+ креаторов. Формат: полностью удалённо. Культура: мало митингов, общаемся асинхронно, без жёсткой иерархии, каждый много решает сам.
Контекст найма
За несколько лет инфра выросла: основной бэк (NestJS), нотификации, аналитика, мониторинг. Всё это крутится на серверах в Hetzner Cloud, перед ними Cloudflare (DNS, LB, CDN). Инфраструктура описана в Pulumi на TypeScript (идеологически похоже на Terraform), деплой — GitHub Actions плюс bash-скрипты.
Ищем человека, который со временем возьмёт на себя IaC, пайплайны, мониторинг и инциденты, закроет накопившиеся TODO по инфре и поможет стеку постепенно эволюционировать. Работать будешь вместе с другими DevOps и разработчиками.
Первые 3 месяца
- Разобраться в текущей инфре: IaC, скрипты деплоя, серверная топология, мониторинг.
- Начать переработку CI/CD: навести порядок, унифицировать.
- Доработать observability: закрыть дыры в дашбордах и алертах.
Первые 6 месяцев
- Полностью владеешь CI/CD: пайплайны, canary, откаты — всё стабильно.
- Observability: дашборды и алерты по всем критичным сервисам, больше покрытия трейсами.
- План восстановления: проверенная процедура подъёма Postgres и файлов из бэкапа.
- Подчищен legacy: выпилены мусорные сервисы и неиспользуемые DNS-записи, старый сервер api приведён к нормальному виду.
- Предложен и согласован план развития инфры на год вперёд (k8s, Nomad или остаёмся на Compose — с обоснованием).
Чем предстоит заниматься
- Поддержка и развитие IaC в Hetzner.
- Настройка Edge: Cloudflare, DNS, Load Balancer, правила, SSL/TLS.
- CI/CD: GitHub Actions + bash + Docker Compose + k8s.
- Observability: ClickStack, VictoriaMetrics + Grafana, OpenTelemetry Collector на всех серверах.
- Эксплуатация баз: PostgreSQL (+ pgBouncer), Redis, ClickHouse.
- Бэкапы и восстановление: часть сервисов требует обновления процессов бэкапа.
Что мы ждём от тебя
Must have:
- 2+ года в DevOps / SRE / системном администрировании на проде.
- Уверенно работаешь с Linux на проде (Ubuntu / Debian), хорошо знаешь bash.
- Docker и Docker Compose на проде: многоэтапные сборки, проверки здоровья контейнеров, тома, сети, ограничения по ресурсам.
- Опыт работы с IaC: Например, Terraform или Pulumi на проде.
- Python на уровне продовых утилит и вспомогательных скриптов для CI.
- TypeScript хотя бы чтобы читать инфраструктурный код и править его с подсказками.
- CI/CD: GitHub Actions, GitLab CI или Jenkins.
- Опыт работы с любым облаком на проде (AWS, GCP, Azure, Hetzner, DO, Yandex), конкретный провайдер не важен.
- Настройка Edge: DNS, балансировщики, проксирование / CDN, SSL/TLS.
- Базы данных: PostgreSQL,redi, бэкапы, восстановление, миграции, понимаешь, как работает пул соединений.
- Мониторинг и логи: Prometheus или VictoriaMetrics + Grafana, плюс любое решение для логов (ELK, Loki, VictoriaLogs). Дашборды и алерты пишешь сам.
- Хранение секретов (1Password, Vault, SOPS, SSM — любое), базовая защита Linux, понимаешь принцип минимальных прав доступа.
- Английский B1+ (техническая переписка, документация).
Будет плюсом:
- Опыт миграции с bash-деплоев на Ansible, Nomad или k8s.
- Pulumi на TypeScript (наш IaC).
- Hetzner Cloud.
- Kubernetes хотя бы на уровне пользователя: deployment, service, ingress, RBAC, Helm. Сейчас k8s у нас нет, но возможна миграция.
- ClickHouse в проде.
- Airflow (эксплуатация, без написания DAG'ов).
- Брокеры сообщений: RabbitMQ, Kafka.
- Caddy как gateway / LB.
- HyperDX / ClickStack или другая система мониторинга на базе ClickHouse.
- OpenTelemetry Collector, Tempo / Jaeger.
- Cloudflare на продвинутом уровне: Workers, Tunnels (cloudflared), Zero Trust Access.
- A/B tests, GrowthBook.
Условия
- Полностью удалённо.
- Оформление как ИП.
- Зарплата: $2 000 – $4 000 в месяц, по итогам интервью.
- Напрямую с фаундером и техлидами, минимум бюрократии.
- Возможность вырасти до Lead DevOps по мере роста команды и инфры.
Этапы найма
- Анкета и небольшое тестовое (асинхронно).
- Скрининг с HR (~30 мин).
- Техническое интервью с техлидами (~30 мин), одним звонком:
- обмен вопросами: ты про нас, мы про тебя — Linux, Docker, IaC, CI/CD, observability, базовая безопасность;
- практическая задача: разбор куска нашего IaC-кода или мини-кейс.
- Оффер.