Системный администратор / SRE / DevOps Engineer

Описание вакансии

Метаскан — облачный сканер уязвимостей, которому доверяют крупнейшие компании России. Мы ищем опытного инженера по инфраструктуре для работы с крупной и сложной инфраструктурой: сейчас в облаке ~250 серверов (Яндекс.Облако), рост до ~400 в ближайшее время.

Мы работаем с масштабной и динамично растущей инфраструктурой, где требуется настраивать и развивать ключевые сервисы: централизованную аутентификацию, мониторинг и алертинг, систему управления нагрузкой и отказоустойчивость. Нам нужен инженер, который умеет работать с критичными системами, способен выстраивать их «с нуля» и обеспечивать их стабильность и развитие.

Что предстоит делать:

Анализ текущего состояния инфраструктуры и планирование приоритетных работ по повышению отказоустойчивости и наблюдаемости.
Проектирование и внедрение централизованной аутентификации (FreeIPA / IPA) и Vault для секретов; настройка SSO для веб-приложений.
Внедрение и настройка мониторинга и алертинга: Prometheus → Alertmanager → Grafana (dashboards, alert-rules, escalation).
Решение проблем с ресурсами: анализ причин перегрузки CPU / памяти, оптимизация, балансировка и масштабирование.
Автоматизация масштабирования: реализация сценариев включения/выключения серверов по нагрузке.
Администрирование Docker-контейнеров и взаимодействие с командами разработки (вы — админ инфраструктуры, не разработчик).
Поддержка и обеспечение отказоустойчивости БД/ПО: Elasticsearch, SQL (Postgres/MySQL), MongoDB.
Документирование изменений, написание runbooks и процедур восстановления.

Какой опыт нам подойдет:

Senior/опытные инженеры с реальным опытом работы на крупных инфраструктурах (200+ серверов).
Отличное знание Linux (Ubuntu 22.04): systemd, bash, iptables/ nftables, tuning.
Глубокое понимание сетей: OSI, маршрутизация, NAT, DNS, HTTP/S.
Понимание и практический опыт работы с Grafana, Prometheus, Alertmanager (настройка метрик, правил алертов и эскалаций).
Опыт работы с FreeIPA (IPA) и/или HashiCorp Vault: настройка аутентификации, управление секретами, интеграция SSO.
Навыки работы с Docker (в продакшн): написание/run контейнеров, отладка, логирование.
Опыт с БД и их отказоустойчивостью: Elasticsearch, SQL, MongoDB (бэкапы, репликация, восстановление).
Опыт в облаках (предпочтительно Яндекс.Облако) и понимание on-prem виртуализации (Proxmox / KVM / Xen) — будет плюсом.
Понимание систем автоматического масштабирования и оркестрации (скрипты/инфраструктура как код).
Умение работать в одиночку: вы будете единственным инженером в отделе инфраструктуры сейчас — высокая степень ответственности и доверия.

Будет преимуществом:

Опыт с CI/CD и желание развиваться в этом направлении (можно подключать позже).
Опыт оптимизации нагрузки и затрат в облаке.
Опыт с инструментами логирования (ELK/EFK) и трассировкой.
Практика работы с высоконагруженными системами и сценариями Disaster Recovery.

Условия:

Оформление по ТК РФ и все бонусы аккредитованной IT-компании;
Удалённая работа: график 5/2 с 10 до 19 по Москве;
Дополнительный отпуск для важных событий и помощь в сложные времена;
Без бюрократии: горизонтальные и открытые коммуникации, быстрое обсуждение идей и принятие решений;
Оплачиваем участие в конференциях;
Компенсация 80% стоимости профильных курсов, обучения английскому языку, спорта, психотерапии.

Посмотреть контакты работодателя