Senior / Lead DevOps Engineer (Highload & Infrastructure)

Описание вакансии

Мы развиваем крупную распределенную инфраструктуру с большим парком серверов. Наша цель - качественный переход к полной автоматизации отказоустойчивости. Нам нужен инженер, который не просто «поддерживает работу», а проектирует системы, способные сохранять живучесть при сбоях на уровне любых узлов или локаций.

Входной фильтр: Начни свой отклик со слов «Я работал в …», а затем перечисли компании, где ты лично отвечал за инфраструктуру с большим количеством серверов и реализовывал механизмы failsafe. Мы ищем человека с глубоким бэкграундом в Highload - если у тебя нет опыта работы с распределенными системами под нагрузкой, пожалуйста, не трать свое и наше время.

🎯 Твой главный вызов:

Проектирование и внедрение архитектуры, которая обеспечит автоматическую живучесть системы. Твоя задача - реализовать надежные механизмы failsafe и Disaster Recovery, чтобы минимизировать влияние сбоев на уровне отдельных сервисов или целых сегментов сети.

🛠 Твои задачи:

Failsafe & Availability: Разработка и внедрение стратегий автоматического обеспечения отказоустойчивости распределенной системы.
Highload Optimization: Глубокая настройка и тюнинг Nginx, Redis и ClickHouse для работы под экстремальными нагрузками.
Масштабирование: Управление парком из большого количества серверов через IaC (Terraform, Ansible) — обеспечение идентичности и предсказуемости среды.
Observability: Настройка мониторинга и алертинга, позволяющая моментально диагностировать проблемы в любой точке инфраструктуры.
Системный тюнинг: Оптимизация Linux-стека (Network, I/O) для стабильной работы сервисов.

📋 Требования (Hard Skills):

Опыт 5+ лет в эксплуатации высоконагруженных систем.
Scale Experience: Реальный опыт управления большим парком серверов и понимание специфики их взаимодействия.
Expertise в стеке: Ты досконально знаешь, как готовить Nginx (tuning), Redis (replication/sentinel/cluster) и ClickHouse (cluster/sharding) к работе с большими данными и трафиком.
IaC: Профессиональное владение инструментами автоматизации. Вся инфраструктура должна быть описана кодом.
Reliability: Практический опыт построения самовосстанавливающихся (self-healing) систем и понимание принципов SRE.

💼 Что мы предлагаем:

Работа над технически сложным продуктом без бюрократии и лишних слоев менеджмента.
Прямое влияние на архитектурные решения: ты предлагаешь инструменты — ты их внедряешь.
Масштабные задачи, требующие нестандартных подходов к инфраструктуре.
Полная удаленка и гибкий график.

Посмотреть контакты работодателя