Infrastructure Lead

Описание вакансии

! У нас нет k8s, docker и облаков - вместо этого оркестрация deb пакетов на bare metal через Ansible
Вот тут можно послушать детали - https://www.youtube.com/watch?v=Xkam_SUWUE0

Kinescope — это высоконагруженная видеоплатформа объединяющая фунционал видеохостинга, проведения трансляций и коммуникаций для бизнеса. С нами бизнес улучшает коммуникации, повышать вовлеченность аудитории, хранит, защищает и показывает миллионы видео ежедневно.

Мы управляем распределенной инфраструктурой в нескольких ЦОД в РФ и глобально, раздаем сотни гигабит трафика, строим новые стыки с операторами связи и многие другое.

Миссия: Делать передовые видео технологии доступными бизнесу.

Продукты: Профессиональный видеохостинг и видеоплеер, аналитика, прямые трансляции, real-time коммуникации

Клиенты: Ведущие медиахолдинги, образовательные учреждения, e-commerce и крупные корпорации.

Зачем эта роль

В Kinescope инфраструктура уже работает: серверы стоят, Ansible катит, мониторинг собирает метрики. Но процессы вокруг этого — в зачаточном состоянии. Дежурств нет, постмортемы не прижились, алерты игнорируются, об инцидентах узнаём от клиентов. Нужен человек, который это изменит — не руками перенастроит Prometheus, а выстроит систему, в которой команда работает предсказуемо.

Что предстоит делать

Процессы и SRE-практики:

Внедрить incident management — от обнаружения до постмортема (процесс описан, нужен человек, который его запустит и будет держать)
Определить SLO/SLI совместно с продуктом и бизнесом, внедрить error budget
Построить дежурства (on-call) — или обосновать, почему автоматика лучше
Сделать так, чтобы алерты были actionable, а не фоновым шумом, который все игнорируют
Наладить capacity planning — сейчас это «кажется, скоро кончится место»

Команда:

Руководить инфраструктурной командой (сейчас: DevOps-инженер, Linux-инженер, ops-инженер)
Распределять задачи, растить людей, закрывать пробелы в компетенциях
Быть IC (Incident Commander) при серьёзных инцидентах — координировать, а не чинить самому

AI как инструмент:

У нас уже используются LLM-агенты для разработки и автоматизации. Мы строим LLM-агента для триажа алертов и сбора контекста при инцидентах. Нужен человек, который видит в этом возможность, а не угрозу
Делегировать рутину AI: написание runbook'ов, анализ логов, первичная диагностика, документирование — всё, что можно автоматизировать, должно быть автоматизировано
Учить команду работать с AI-инструментами, внедрять их в повседневные процессы

Техническое лидерство (не «руками в консоли»):

Принимать архитектурные решения по инфраструктуре: что масштабировать, что упрощать, от чего отказываться
Развивать IaC — не писать каждую роль самому, а задать стандарты, code review, тестирование
Закрывать технический долг системно, а не героически

Обязательные требования

Опыт построения процессов:

Внедрял incident management, on-call, постмортемы — не «читал книгу Google SRE», а реально запускал в команде
Определял и внедрял SLO/SLI/error budget
Умеет превращать хаос «реагирует кто увидел» в предсказуемый процесс

Лидерство:

Руководил инфраструктурной/SRE-командой (3+ человек)
Умеет делегировать, а не делать всё сам
Способен объяснить бизнесу, зачем нужен error budget, на понятном языке
Опыт найма и развития инженеров

Технический фундамент:

Linux, сети, системы хранения — на уровне «понимаю архитектуру и могу оценить решение», не обязательно «настрою Ceph с нуля»
IaC (Ansible или аналоги) — понимание принципов, code review, стандарты
Мониторинг (Prometheus/Grafana или аналоги) — не настройка экспортеров, а проектирование системы алертинга, которая работает
CI/CD — понимание пайплайнов, стратегий деплоя, rollback

Отношение к AI:

Активно использует LLM в работе (Cursor, Copilot, Claude, ChatGPT — неважно что именно)
Видит AI как способ убрать рутину с команды, а не как игрушку
Готов внедрять AI-инструменты в процессы команды и учить людей ими пользоваться

Желательно

Опыт с on-premise / bare-metal инфраструктурой (не только облака)
Опыт с видео/стриминг/CDN — понимание специфики
Опыт работы с распределённой инфраструктурой (мульти-ЦОД)
Знакомство с FinOps — оптимизация затрат на инфраструктуру

Что НЕ ищем

«Классического DevOps», который настроит Jenkins и напишет Dockerfile
Человека, который будет сам сидеть в консоли 8 часов в день
Того, кто считает, что «у нас всегда так работало» — это аргумент
Того, для кого AI — это хайп, который пройдёт

Контекст

Стек: ~70 Go-сервисов, Ansible, GitLab CI, Prometheus/Grafana/Loki, PostgreSQL, ClickHouse, Ceph, NATS, собственная CDN
Инфраструктура: bare-metal + совсем минимально облака, ЦОД в 4 регионах
Команда: 3 инженера (DevOps, Linux, Сетевой) + DBA + storage инженер
Что уже есть: работающая инфраструктура, 100+ Ansible-ролей, мониторинг, CI/CD
Чего не хватает: процессы, SLO, дежурства, культура постмортемов, системная работа с техдолгом

Условия:

Удаленная работа в компактной (30+ человек) команде разработчиков Senior+
Возможность работать над известными проектами с высокими нагрузками, на собственной глобальной инфраструктуре
Адекватное управление проектом, отсутствие бюрократии, микроменеджмента и трекинга часов
Гибкие коммерческие условия и возможность договариваться

!!! При отклике в сопроводительном письме расскажите об опыте по вакансии в разрезе нашего проекта. Пожалуйста не игнорируйте это, отклики без минимальной сопроводительной информации не рассматриваются