Senior DevOps-инженер

Описание вакансии

Кто мы

Kinescope — высоконагруженная видеоплатформа. Видеохостинг, трансляции, real-time коммуникации для бизнеса. Распределённая инфраструктура в нескольких ЦОД в РФ и глобально, сотни гигабит трафика.

Зачем эта роль

Инфраструктура работает: серверы стоят, Ansible катит, мониторинг собирает метрики. Но вокруг этого — дыры. Дежурств нет. Постмортемы не прижились. Алерты — фоновый шум, который все научились игнорировать. Об инцидентах узнаём от клиентов.

Команда из трёх инженеров (DevOps, Linux, NetOps) и делает свою работу, но без лида каждый тянет в свою сторону. Нужен человек, который возьмёт эту команду, наведёт порядок в процессах и сам будет работать наравне — не из кресла руководителя, а из той же консоли.

Что предстоит делать

Это играющий тренер. Руками — всегда, не только на старте. Разница с обычным инженером — в том, что ты ещё и определяешь, куда команда движется.

Алертинг и инциденты:

Разобрать текущие алерты. Сейчас их сотни, большинство — мусор. Нужно выкинуть лишнее, переписать оставшиеся так, чтобы каждый алерт = конкретное действие
Запустить incident management. Процесс описан, но не работает. Нужно его взять, адаптировать под реальность и начать по нему жить — самому быть IC на первых инцидентах
Внедрить постмортемы. Не формальные отписки, а разборы, после которых что-то меняется

SLO и мониторинг:

Определить SLO/SLI для ключевых сервисов совместно с продуктом. Начать с 3-5 самых важных, не пытаться покрыть всё сразу
Настроить дашборды и алерты по SLO в Grafana
Внедрить error budget — чтобы было понятно, когда можно катить фичи, а когда пора чинить

Дежурства и реагирование:

Построить on-call. Или обосновать, почему автоматика лучше — но тогда эту автоматику и сделать
Написать runbook'и для типовых инцидентов. Первые — самому, потом научить команду

Инфраструктура:

Capacity planning — сейчас это «кажется, скоро кончится место». Нужны цифры и прогнозы
Развивать IaC: code review Ansible-ролей, стандарты, тестирование. 100+ ролей уже есть, но качество разное
Закрывать техдолг системно: приоритизировать, планировать, делать — а не героически в выходные

Команда:

Распределять задачи, растить людей, закрывать пробелы
Не «менеджерить», а работать вместе — показывать как, разбирать сложные кейсы, делать code review

AI — не хайп, а инструмент

Это важно, поэтому отдельным блоком.

Мы работаем в Cursor. Не только для написания кода — для проработки задач, системного администрирования, анализа инцидентов, документации. Мы строим LLM-агента для триажа алертов и сбора контекста при инцидентах.

Для нас AI — это не «поиграться с ChatGPT». Это способ убрать рутину: написание runbook'ов, анализ логов, первичная диагностика, документирование. Ты остаёшься инженером, который думает и принимает решения — но рутину отдаёшь.

Если считаешь, что «настоящий инженер всё делает сам» — нам не по пути. Если видишь в AI способ делать больше за то же время — поговорим.

Чего мы ждём

Опыт построения процессов — incident management, on-call, постмортемы. Не «читал книгу Google SRE», а реально запускал и поддерживал
Опыт работы с SLO/SLI/error budget в продакшене
Руководство инфраструктурной или SRE-командой (3+ человек). Не «был тимлидом на бумаге», а реально распределял работу, растил людей, нанимал
Linux, сети, системы хранения — на уровне «разберусь в проблеме и приму решение», а не только «поставлю задачу»
Мониторинг (Prometheus/Grafana или аналоги) — не настройка экспортеров, а проектирование алертинга, который работает
IaC (Ansible или аналоги) — code review, стандарты, понимание как это должно быть устроено
CI/CD — пайплайны, стратегии деплоя, rollback
Работа с AI-инструментами — Cursor, Claude, Copilot, что угодно. Главное — реально используешь, а не «пробовал один раз»

Будет плюсом

Опыт с bare-metal и on-premise (не только облака)
Видео/стриминг/CDN — понимание специфики
Распределённая инфраструктура (мульти-ЦОД)
FinOps — оптимизация затрат на инфраструктуру

Что у нас "под капотом"

~70 Go-сервисов, Ansible, GitLab CI, Prometheus/Grafana/Loki
PostgreSQL, ClickHouse, Ceph, NATS
Bare-metal + облака (Yandex Cloud, VK Cloud, Selectel), ЦОД в 4 регионах
Собственная CDN
Команда: 3 инженера (DevOps, Linux, Ops) + DBA + инженер по хранилищам

Условия

Удалённая работа
Нет бюрократии, микроменеджмента и трекинга часов
Гибкие коммерческие условия — можно договариваться

Что НЕ ищем

Руководителя, который будет «выстраивать процессы» из кабинета. Тут надо работать
«Классического DevOps», который настроит Jenkins и напишет Dockerfile
Того, кто считает, что «у нас всегда так работало» — это аргумент
Того, для кого AI — это хайп, который пройдёт

!!! При отклике в сопроводительном письме расскажите об опыте по вакансии в разрезе нашего проекта. Пожалуйста не игнорируйте это, отклики без минимальной сопроводительной информации не рассматриваются