Senior DevOps/SRE-инженер

Описание вакансии

О компании

Steel Balalaika — разработчик Broken Arrow, многопользовательской RTS для PC, с игроками по всему миру и едиными игровыми серверами для всех.

Мы ищем сильного Senior DevOps / SRE Engineer, который возьмёт на себя ответственность за production-инфраструктуру игры, надёжность сервисов, релизы, мониторинг, базы данных и сетевую диагностику.

Это не позиция исключительно про CI/CD или Kubernetes. Нам нужен инженер, способный разбираться в проблемах всей инфраструктуры: от сетевых проблем и Linux до PostgreSQL, игровых серверов и production-инцидентов.

Основные задачи

Production-инфраструктура

принять техническое владение и предложить план развития production-инфраструктуры игры
разобраться в существующей архитектуре, зависимостях и процессах
поддерживать Linux-серверы, игровые сервисы, прокси, базы данных и инфраструктурные компоненты
участвовать в планировании развития и реорганизации инфраструктуры

Сеть и игровые сервисы

диагностировать и исправлять проблемы TCP/UDP-соединений между клиентами, игровыми серверами, relay-серверами и backend-сервисами в условиях блокировок интернета
разбирать packet loss, latency, jitter, fragmentation, MTU и проблемы маршрутизации
анализировать региональные проблемы соединения, включая Россию, Европу, США и Азию
участвовать в проектировании отказоустойчивых прокси- и relay-схем
понимать особенности сетевых блокировок, фильтрации трафика и деградации соединений

Релизы и автоматизация

привести release-процесс к воспроизводимому и контролируемому состоянию
автоматизировать развёртывание сервисов и конфигураций
организовать безопасные production-релизы с pre-check, post-check и rollback
устранять ручные операции, которые создают риск ошибок или зависят от конкретного сотрудника
обеспечить соответствие DEV, RC и production-окружений

Надёжность и наблюдаемость

определить основные SLI/SLO для игровых и инфраструктурных сервисов
настроить мониторинг доступности, производительности и ошибок
привести систему алертов в рабочее состояние: убрать шум, определить приоритеты и ответственных
построить мониторинг PostgreSQL, Redis, Nginx, игровых серверов и системных ресурсов
контролировать latency, error rate, saturation, disconnect rate и другие пользовательские показатели
организовать process incident response, postmortem и устранение причин повторяющихся сбоев

Обязательные требования

не менее 6 лет опыта работы с Linux-инфраструктурой
опыт самостоятельной эксплуатации production-систем
уверенное знание Linux: systemd, networking, filesystem, processes, limits, performance diagnostics
глубокое понимание функционирования и диагностики TCP/IP и UDP
практический опыт диагностики и устранения сетевых проблем, в том числе в условиях блокировок
опыт построения и поддержки CI/CD
опыт работы с Docker
опыт администрирования PostgreSQL
понимание backup, restore, PITR, replication, locks и query performance
опыт построения алертинга и observability
опыт расследования production-инцидентов
понимание high availability, fault tolerance, RPO и RTO
способность самостоятельно разбираться в незнакомой инфраструктуре
готовность брать техническую ответственность за результат
умение писать понятную техническую документацию

Будет преимуществом

опыт эксплуатации игровых серверов;
опыт работы с realtime multiplayer
опыт работы с инфраструктурой в нескольких географических регионах
опыт эксплуатации bare metal
опыт эксплуатации managed Kubernetes
опыт миграции legacy-инфраструктуры без остановки production

Мы предлагаем

работу над выпущенной многопользовательской RTS-игрой
прямое взаимодействие с CTO и командой разработки
возможность влиять на архитектуру и процессы
отсутствие необходимости поддерживать бессмысленные решения только потому, что они однажды появились
удалённую работу
полную занятость
заработную плату 350 000–450 000 рублей, в зависимости от опыта и уровня ответственности;
оплачиваемый отпуск и больничные