! У нас нет k8s, docker и облаков - вместо этого оркестрация deb пакетов на bare metal через Ansible
Вот тут можно послушать детали - https://www.youtube.com/watch?v=Xkam_SUWUE0
Kinescope — это высоконагруженная видеоплатформа объединяющая фунционал видеохостинга, проведения трансляций и коммуникаций для бизнеса. С нами бизнес улучшает коммуникации, повышать вовлеченность аудитории, хранит, защищает и показывает миллионы видео ежедневно.
Мы управляем распределенной инфраструктурой в нескольких ЦОД в РФ и глобально, раздаем сотни гигабит трафика, строим новые стыки с операторами связи и многие другое.
Миссия: Делать передовые видео технологии доступными бизнесу.
Продукты: Профессиональный видеохостинг и видеоплеер, аналитика, прямые трансляции, real-time коммуникации
Клиенты: Ведущие медиахолдинги, образовательные учреждения, e-commerce и крупные корпорации.
Зачем эта роль
В Kinescope инфраструктура уже работает: серверы стоят, Ansible катит, мониторинг собирает метрики. Но процессы вокруг этого — в зачаточном состоянии. Дежурств нет, постмортемы не прижились, алерты игнорируются, об инцидентах узнаём от клиентов. Нужен человек, который это изменит — не руками перенастроит Prometheus, а выстроит систему, в которой команда работает предсказуемо.
Что предстоит делать
Процессы и SRE-практики:
- Внедрить incident management — от обнаружения до постмортема (процесс описан, нужен человек, который его запустит и будет держать)
- Определить SLO/SLI совместно с продуктом и бизнесом, внедрить error budget
- Построить дежурства (on-call) — или обосновать, почему автоматика лучше
- Сделать так, чтобы алерты были actionable, а не фоновым шумом, который все игнорируют
- Наладить capacity planning — сейчас это «кажется, скоро кончится место»
Команда:
- Руководить инфраструктурной командой (сейчас: DevOps-инженер, Linux-инженер, ops-инженер)
- Распределять задачи, растить людей, закрывать пробелы в компетенциях
- Быть IC (Incident Commander) при серьёзных инцидентах — координировать, а не чинить самому
AI как инструмент:
- У нас уже используются LLM-агенты для разработки и автоматизации. Мы строим LLM-агента для триажа алертов и сбора контекста при инцидентах. Нужен человек, который видит в этом возможность, а не угрозу
- Делегировать рутину AI: написание runbook'ов, анализ логов, первичная диагностика, документирование — всё, что можно автоматизировать, должно быть автоматизировано
- Учить команду работать с AI-инструментами, внедрять их в повседневные процессы
Техническое лидерство (не «руками в консоли»):
- Принимать архитектурные решения по инфраструктуре: что масштабировать, что упрощать, от чего отказываться
- Развивать IaC — не писать каждую роль самому, а задать стандарты, code review, тестирование
- Закрывать технический долг системно, а не героически
Обязательные требования
Опыт построения процессов:
- Внедрял incident management, on-call, постмортемы — не «читал книгу Google SRE», а реально запускал в команде
- Определял и внедрял SLO/SLI/error budget
- Умеет превращать хаос «реагирует кто увидел» в предсказуемый процесс
Лидерство:
- Руководил инфраструктурной/SRE-командой (3+ человек)
- Умеет делегировать, а не делать всё сам
- Способен объяснить бизнесу, зачем нужен error budget, на понятном языке
- Опыт найма и развития инженеров
Технический фундамент:
- Linux, сети, системы хранения — на уровне «понимаю архитектуру и могу оценить решение», не обязательно «настрою Ceph с нуля»
- IaC (Ansible или аналоги) — понимание принципов, code review, стандарты
- Мониторинг (Prometheus/Grafana или аналоги) — не настройка экспортеров, а проектирование системы алертинга, которая работает
- CI/CD — понимание пайплайнов, стратегий деплоя, rollback
Отношение к AI:
- Активно использует LLM в работе (Cursor, Copilot, Claude, ChatGPT — неважно что именно)
- Видит AI как способ убрать рутину с команды, а не как игрушку
- Готов внедрять AI-инструменты в процессы команды и учить людей ими пользоваться
Желательно
- Опыт с on-premise / bare-metal инфраструктурой (не только облака)
- Опыт с видео/стриминг/CDN — понимание специфики
- Опыт работы с распределённой инфраструктурой (мульти-ЦОД)
- Знакомство с FinOps — оптимизация затрат на инфраструктуру
Что НЕ ищем
- «Классического DevOps», который настроит Jenkins и напишет Dockerfile
- Человека, который будет сам сидеть в консоли 8 часов в день
- Того, кто считает, что «у нас всегда так работало» — это аргумент
- Того, для кого AI — это хайп, который пройдёт
Контекст
- Стек: ~70 Go-сервисов, Ansible, GitLab CI, Prometheus/Grafana/Loki, PostgreSQL, ClickHouse, Ceph, NATS, собственная CDN
- Инфраструктура: bare-metal + совсем минимально облака, ЦОД в 4 регионах
- Команда: 3 инженера (DevOps, Linux, Сетевой) + DBA + storage инженер
- Что уже есть: работающая инфраструктура, 100+ Ansible-ролей, мониторинг, CI/CD
- Чего не хватает: процессы, SLO, дежурства, культура постмортемов, системная работа с техдолгом
Условия:
- Удаленная работа в компактной (30+ человек) команде разработчиков Senior+
- Возможность работать над известными проектами с высокими нагрузками, на собственной глобальной инфраструктуре
- Адекватное управление проектом, отсутствие бюрократии, микроменеджмента и трекинга часов
- Гибкие коммерческие условия и возможность договариваться
!!! При отклике в сопроводительном письме расскажите об опыте по вакансии в разрезе нашего проекта. Пожалуйста не игнорируйте это, отклики без минимальной сопроводительной информации не рассматриваются