DevOps Engineer / SRE-инженер

DevOps Engineer / SRE-инженер

Описание вакансии

Мы развиваем крупную распределенную инфраструктуру с большим парком серверов. Сейчас мы ищем инженера, который станет «хранителем стабильности»: будет не просто реагировать на алерты, а глубоко разбираться в причинах инцидентов и планомерно вычищать слабые места системы.

Входной фильтр: Начни свой отклик со слов «Я работал в …», а затем перечисли компании, где ты лично отвечал за доступность серверов и разруливал инциденты.

🎯 Твой главный вызов:

Обеспечить максимальный аптайм и прозрачность работы инфраструктуры. Тебе предстоит выстроить процесс так, чтобы инциденты либо предотвращались на подлете, либо купировались автоматикой. Ты — тот, кто находит «тонкие места» раньше, чем они станут проблемой для пользователей.

🛠 Твои задачи:

  • Incident Response & Post-mortems: Оперативное реагирование на сбои и, что важнее, детальный разбор причин.

  • Observability: Развитие мониторинга (Prometheus/Grafana/VictoriaMetrics). Твоя цель — видеть состояние каждого узла и предсказывать деградацию сервисов.

  • Укрепление слабых мест: Поиск и оптимизация «бутылочных горлышек» в конфигурациях Nginx, Redis и ClickHouse.

  • Автоматизация эксплуатации: Написание Ansible-плейбуков и Terraform-манифестов для того, чтобы рутинные операции по восстановлению серверов выполнялись без участия человека.

  • Health Checks & Failsafe: Настройка и проверка механизмов переключения трафика и самовосстановления сервисов.

📋 Требования (Hard Skills):

  • Опыт 5+ лет в эксплуатации Linux-систем (обязательно в проектах с высокой нагрузкой).

  • Monitoring Expert: Ты понимаешь разницу между «сервер пингуется» и «сервер работает корректно», умеешь строить сложные запросы и понятные дашборды.

  • Знание стека: Уверенная работа с Nginx (tuning), понимание репликации в Redis и базовое администрирование ClickHouse.

  • IaC: Опыт работы с Ansible (обязательно) и Terraform (желательно). Твой подход: «сделал руками один раз — запиши в код».

  • Troubleshooting: Умение быстро диагностировать проблемы в сети, дисковой подсистеме или потреблении ресурсов.

  • Желание расти: Ты готов разбираться в новых технологиях и постоянно улучшать текущие процессы.

💼 Что мы предлагаем:

  • Минимум бюрократии: Прямое общение с командой разработки и возможность быстро внедрять свои идеи.

  • Сложная инфраструктура: Реальный Highload, где твои решения влияют на работу сотен серверов.

  • Профессиональный рост: Мы поддерживаем инициативу по улучшению системы — если видишь, что можно сделать лучше, бери и делай.

  • Удаленка: Полный remote и гибкое начало рабочего дня.

Посмотреть контакты работодателя

Похожие вакансии

Millennium
  • Москва

  • от 370000 RUR

Рекомендуем
Start Industries

DevOps инженер / SRE

Start Industries

  • Москва

  • от 370000 RUR

Рекомендуем
Горизонт

Senior DevOps

Горизонт

  • Москва

  • до 6500 USD

Рекомендуем
Бифорком Тек
  • Москва

  • до 6500 USD

DiagnoCat
  • Москва

  • до 6500 USD

ТЛ Групп

Platform Engineer / SRE

ТЛ Групп

  • Москва

  • до 350000 RUR

YADRO
  • Москва

  • до 350000 RUR

Альфа-Банк
  • Москва

  • до 350000 RUR

МТС
  • Москва

  • до 350000 RUR

Студия Кефир

SRE/DevOps Engineer Md/Se

Студия Кефир

  • Москва

  • до 350000 RUR

БАЗИС
  • Москва

  • до 350000 RUR

Лаборатория Касперского

DevOps Engineer (OSMP)

Лаборатория Касперского

  • Москва

  • до 350000 RUR

edna
  • Москва

  • до 350000 RUR

Rambler&Co
  • Москва

  • до 350000 RUR

Бэнкс Софт Системс

DevOps-инженер

Бэнкс Софт Системс

  • Москва

  • до 350000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию