Кто мы
Kinescope — высоконагруженная видеоплатформа. Видеохостинг, трансляции, real-time коммуникации для бизнеса. Распределённая инфраструктура в нескольких ЦОД в РФ и глобально, сотни гигабит трафика.
Зачем эта роль
Инфраструктура работает: серверы стоят, Ansible катит, мониторинг собирает метрики. Но вокруг этого — дыры. Дежурств нет. Постмортемы не прижились. Алерты — фоновый шум, который все научились игнорировать. Об инцидентах узнаём от клиентов.
Команда из трёх инженеров (DevOps, Linux, NetOps) и делает свою работу, но без лида каждый тянет в свою сторону. Нужен человек, который возьмёт эту команду, наведёт порядок в процессах и сам будет работать наравне — не из кресла руководителя, а из той же консоли.
Что предстоит делать
Это играющий тренер. Руками — всегда, не только на старте. Разница с обычным инженером — в том, что ты ещё и определяешь, куда команда движется.
Алертинг и инциденты:
- Разобрать текущие алерты. Сейчас их сотни, большинство — мусор. Нужно выкинуть лишнее, переписать оставшиеся так, чтобы каждый алерт = конкретное действие
- Запустить incident management. Процесс описан, но не работает. Нужно его взять, адаптировать под реальность и начать по нему жить — самому быть IC на первых инцидентах
- Внедрить постмортемы. Не формальные отписки, а разборы, после которых что-то меняется
SLO и мониторинг:
- Определить SLO/SLI для ключевых сервисов совместно с продуктом. Начать с 3-5 самых важных, не пытаться покрыть всё сразу
- Настроить дашборды и алерты по SLO в Grafana
- Внедрить error budget — чтобы было понятно, когда можно катить фичи, а когда пора чинить
Дежурства и реагирование:
- Построить on-call. Или обосновать, почему автоматика лучше — но тогда эту автоматику и сделать
- Написать runbook'и для типовых инцидентов. Первые — самому, потом научить команду
Инфраструктура:
- Capacity planning — сейчас это «кажется, скоро кончится место». Нужны цифры и прогнозы
- Развивать IaC: code review Ansible-ролей, стандарты, тестирование. 100+ ролей уже есть, но качество разное
- Закрывать техдолг системно: приоритизировать, планировать, делать — а не героически в выходные
Команда:
- Распределять задачи, растить людей, закрывать пробелы
- Не «менеджерить», а работать вместе — показывать как, разбирать сложные кейсы, делать code review
AI — не хайп, а инструмент
Это важно, поэтому отдельным блоком.
Мы работаем в Cursor. Не только для написания кода — для проработки задач, системного администрирования, анализа инцидентов, документации. Мы строим LLM-агента для триажа алертов и сбора контекста при инцидентах.
Для нас AI — это не «поиграться с ChatGPT». Это способ убрать рутину: написание runbook'ов, анализ логов, первичная диагностика, документирование. Ты остаёшься инженером, который думает и принимает решения — но рутину отдаёшь.
Если считаешь, что «настоящий инженер всё делает сам» — нам не по пути. Если видишь в AI способ делать больше за то же время — поговорим.
Чего мы ждём
- Опыт построения процессов — incident management, on-call, постмортемы. Не «читал книгу Google SRE», а реально запускал и поддерживал
- Опыт работы с SLO/SLI/error budget в продакшене
- Руководство инфраструктурной или SRE-командой (3+ человек). Не «был тимлидом на бумаге», а реально распределял работу, растил людей, нанимал
- Linux, сети, системы хранения — на уровне «разберусь в проблеме и приму решение», а не только «поставлю задачу»
- Мониторинг (Prometheus/Grafana или аналоги) — не настройка экспортеров, а проектирование алертинга, который работает
- IaC (Ansible или аналоги) — code review, стандарты, понимание как это должно быть устроено
- CI/CD — пайплайны, стратегии деплоя, rollback
- Работа с AI-инструментами — Cursor, Claude, Copilot, что угодно. Главное — реально используешь, а не «пробовал один раз»
Будет плюсом
- Опыт с bare-metal и on-premise (не только облака)
- Видео/стриминг/CDN — понимание специфики
- Распределённая инфраструктура (мульти-ЦОД)
- FinOps — оптимизация затрат на инфраструктуру
Что у нас "под капотом"
- ~70 Go-сервисов, Ansible, GitLab CI, Prometheus/Grafana/Loki
- PostgreSQL, ClickHouse, Ceph, NATS
- Bare-metal + облака (Yandex Cloud, VK Cloud, Selectel), ЦОД в 4 регионах
- Собственная CDN
- Команда: 3 инженера (DevOps, Linux, Ops) + DBA + инженер по хранилищам
Условия
- Удалённая работа
- Нет бюрократии, микроменеджмента и трекинга часов
- Гибкие коммерческие условия — можно договариваться
Что НЕ ищем
- Руководителя, который будет «выстраивать процессы» из кабинета. Тут надо работать
- «Классического DevOps», который настроит Jenkins и напишет Dockerfile
- Того, кто считает, что «у нас всегда так работало» — это аргумент
- Того, для кого AI — это хайп, который пройдёт
!!! При отклике в сопроводительном письме расскажите об опыте по вакансии в разрезе нашего проекта. Пожалуйста не игнорируйте это, отклики без минимальной сопроводительной информации не рассматриваются