Infrastructure Lead

Kinescope

Infrastructure Lead

Описание вакансии

! У нас нет k8s, docker и облаков - вместо этого оркестрация deb пакетов на bare metal через Ansible
Вот тут можно послушать детали - https://www.youtube.com/watch?v=Xkam_SUWUE0

Kinescope
— это высоконагруженная видеоплатформа объединяющая фунционал видеохостинга, проведения трансляций и коммуникаций для бизнеса. С нами бизнес улучшает коммуникации, повышать вовлеченность аудитории, хранит, защищает и показывает миллионы видео ежедневно.

Мы управляем распределенной инфраструктурой в нескольких ЦОД в РФ и глобально, раздаем сотни гигабит трафика, строим новые стыки с операторами связи и многие другое.

Миссия: Делать передовые видео технологии доступными бизнесу.

Продукты: Профессиональный видеохостинг и видеоплеер, аналитика, прямые трансляции, real-time коммуникации

Клиенты: Ведущие медиахолдинги, образовательные учреждения, e-commerce и крупные корпорации.

Зачем эта роль

В Kinescope инфраструктура уже работает: серверы стоят, Ansible катит, мониторинг собирает метрики. Но процессы вокруг этого — в зачаточном состоянии. Дежурств нет, постмортемы не прижились, алерты игнорируются, об инцидентах узнаём от клиентов. Нужен человек, который это изменит — не руками перенастроит Prometheus, а выстроит систему, в которой команда работает предсказуемо.

Что предстоит делать

Процессы и SRE-практики:

  • Внедрить incident management — от обнаружения до постмортема (процесс описан, нужен человек, который его запустит и будет держать)
  • Определить SLO/SLI совместно с продуктом и бизнесом, внедрить error budget
  • Построить дежурства (on-call) — или обосновать, почему автоматика лучше
  • Сделать так, чтобы алерты были actionable, а не фоновым шумом, который все игнорируют
  • Наладить capacity planning — сейчас это «кажется, скоро кончится место»

Команда:

  • Руководить инфраструктурной командой (сейчас: DevOps-инженер, Linux-инженер, ops-инженер)
  • Распределять задачи, растить людей, закрывать пробелы в компетенциях
  • Быть IC (Incident Commander) при серьёзных инцидентах — координировать, а не чинить самому

AI как инструмент:

  • У нас уже используются LLM-агенты для разработки и автоматизации. Мы строим LLM-агента для триажа алертов и сбора контекста при инцидентах. Нужен человек, который видит в этом возможность, а не угрозу
  • Делегировать рутину AI: написание runbook'ов, анализ логов, первичная диагностика, документирование — всё, что можно автоматизировать, должно быть автоматизировано
  • Учить команду работать с AI-инструментами, внедрять их в повседневные процессы

Техническое лидерство (не «руками в консоли»):

  • Принимать архитектурные решения по инфраструктуре: что масштабировать, что упрощать, от чего отказываться
  • Развивать IaC — не писать каждую роль самому, а задать стандарты, code review, тестирование
  • Закрывать технический долг системно, а не героически

Обязательные требования

Опыт построения процессов:

  • Внедрял incident management, on-call, постмортемы — не «читал книгу Google SRE», а реально запускал в команде
  • Определял и внедрял SLO/SLI/error budget
  • Умеет превращать хаос «реагирует кто увидел» в предсказуемый процесс

Лидерство:

  • Руководил инфраструктурной/SRE-командой (3+ человек)
  • Умеет делегировать, а не делать всё сам
  • Способен объяснить бизнесу, зачем нужен error budget, на понятном языке
  • Опыт найма и развития инженеров

Технический фундамент:

  • Linux, сети, системы хранения — на уровне «понимаю архитектуру и могу оценить решение», не обязательно «настрою Ceph с нуля»
  • IaC (Ansible или аналоги) — понимание принципов, code review, стандарты
  • Мониторинг (Prometheus/Grafana или аналоги) — не настройка экспортеров, а проектирование системы алертинга, которая работает
  • CI/CD — понимание пайплайнов, стратегий деплоя, rollback

Отношение к AI:

  • Активно использует LLM в работе (Cursor, Copilot, Claude, ChatGPT — неважно что именно)
  • Видит AI как способ убрать рутину с команды, а не как игрушку
  • Готов внедрять AI-инструменты в процессы команды и учить людей ими пользоваться

Желательно

  • Опыт с on-premise / bare-metal инфраструктурой (не только облака)
  • Опыт с видео/стриминг/CDN — понимание специфики
  • Опыт работы с распределённой инфраструктурой (мульти-ЦОД)
  • Знакомство с FinOps — оптимизация затрат на инфраструктуру

Что НЕ ищем

  • «Классического DevOps», который настроит Jenkins и напишет Dockerfile
  • Человека, который будет сам сидеть в консоли 8 часов в день
  • Того, кто считает, что «у нас всегда так работало» — это аргумент
  • Того, для кого AI — это хайп, который пройдёт

Контекст

  • Стек: ~70 Go-сервисов, Ansible, GitLab CI, Prometheus/Grafana/Loki, PostgreSQL, ClickHouse, Ceph, NATS, собственная CDN
  • Инфраструктура: bare-metal + совсем минимально облака, ЦОД в 4 регионах
  • Команда: 3 инженера (DevOps, Linux, Сетевой) + DBA + storage инженер
  • Что уже есть: работающая инфраструктура, 100+ Ansible-ролей, мониторинг, CI/CD
  • Чего не хватает: процессы, SLO, дежурства, культура постмортемов, системная работа с техдолгом

Условия:

  • Удаленная работа в компактной (30+ человек) команде разработчиков Senior+
  • Возможность работать над известными проектами с высокими нагрузками, на собственной глобальной инфраструктуре
  • Адекватное управление проектом, отсутствие бюрократии, микроменеджмента и трекинга часов
  • Гибкие коммерческие условия и возможность договариваться

    !!! При отклике в сопроводительном письме расскажите об опыте по вакансии в разрезе нашего проекта. Пожалуйста не игнорируйте это, отклики без минимальной сопроводительной информации не рассматриваются
Навыки
  • PostgreSQL
  • CI/CD
  • Grafana
  • Prometheus
  • Ansible
  • DevOps
  • Gitlab
  • GitLab CI
  • Redis
  • Linux
  • Инженерная инфраструктура и сети
  • cursor
  • claude
Посмотреть контакты работодателя

Похожие вакансии

iiko, Компания Айко

Senior DevOps Engineer

iiko, Компания Айко

  • Москва

  • от 350000 RUR

Рекомендуем
билайн
  • Москва

  • от 350000 RUR

Рекомендуем
Лаборатория Касперского

Senior DevOps Engineer (BYPASS)

Лаборатория Касперского

  • Москва

  • от 350000 RUR

Рекомендуем
PARI
  • Москва

  • от 350000 RUR

Платформа ОФД

SRE / Senior DevOps / Инженер

Платформа ОФД

  • Москва

  • до 345000 RUR

  • Москва

  • до 345000 RUR

РДП Энтерпрайз

Senior DevOps-инженер

РДП Энтерпрайз

  • Москва

  • до 345000 RUR

М.Видео-Эльдорадо

Devops - инженер (middle/senior)

М.Видео-Эльдорадо

  • Москва

  • до 345000 RUR

Диплей
  • Москва

  • до 345000 RUR

Специализированный депозитарий ИНФИНИТУМ

Senior DevSecOps инженер / Инфраструктурный безопасник

Специализированный депозитарий ИНФИНИТУМ

  • Москва

  • до 345000 RUR

CyberOK
  • Москва

  • до 345000 RUR

ВТБ Факторинг
  • Москва

  • до 345000 RUR

Go Invest
  • Москва

  • до 345000 RUR

Senior DevOps

Лектон

  • Москва

  • до 345000 RUR

Kinescope
  • Москва

  • от 350000 RUR

МТС
  • Москва

  • от 350000 RUR

Стрит Фалькон

Senior DevOps инженер

Стрит Фалькон

  • Москва

  • от 350000 RUR

Go Invest
  • Москва

  • от 350000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию