Метаскан — облачный сканер уязвимостей, которому доверяют крупнейшие компании России. Мы ищем опытного инженера по инфраструктуре для работы с крупной и сложной инфраструктурой: сейчас в облаке ~250 серверов (Яндекс.Облако), рост до ~400 в ближайшее время.
Мы работаем с масштабной и динамично растущей инфраструктурой, где требуется настраивать и развивать ключевые сервисы: централизованную аутентификацию, мониторинг и алертинг, систему управления нагрузкой и отказоустойчивость. Нам нужен инженер, который умеет работать с критичными системами, способен выстраивать их «с нуля» и обеспечивать их стабильность и развитие.
Что предстоит делать:
- Анализ текущего состояния инфраструктуры и планирование приоритетных работ по повышению отказоустойчивости и наблюдаемости.
- Проектирование и внедрение централизованной аутентификации (FreeIPA / IPA) и Vault для секретов; настройка SSO для веб-приложений.
- Внедрение и настройка мониторинга и алертинга: Prometheus → Alertmanager → Grafana (dashboards, alert-rules, escalation).
- Решение проблем с ресурсами: анализ причин перегрузки CPU / памяти, оптимизация, балансировка и масштабирование.
- Автоматизация масштабирования: реализация сценариев включения/выключения серверов по нагрузке.
- Администрирование Docker-контейнеров и взаимодействие с командами разработки (вы — админ инфраструктуры, не разработчик).
- Поддержка и обеспечение отказоустойчивости БД/ПО: Elasticsearch, SQL (Postgres/MySQL), MongoDB.
- Документирование изменений, написание runbooks и процедур восстановления.
Какой опыт нам подойдет:
- Senior/опытные инженеры с реальным опытом работы на крупных инфраструктурах (200+ серверов).
- Отличное знание Linux (Ubuntu 22.04): systemd, bash, iptables/ nftables, tuning.
- Глубокое понимание сетей: OSI, маршрутизация, NAT, DNS, HTTP/S.
- Понимание и практический опыт работы с Grafana, Prometheus, Alertmanager (настройка метрик, правил алертов и эскалаций).
- Опыт работы с FreeIPA (IPA) и/или HashiCorp Vault: настройка аутентификации, управление секретами, интеграция SSO.
- Навыки работы с Docker (в продакшн): написание/run контейнеров, отладка, логирование.
- Опыт с БД и их отказоустойчивостью: Elasticsearch, SQL, MongoDB (бэкапы, репликация, восстановление).
- Опыт в облаках (предпочтительно Яндекс.Облако) и понимание on-prem виртуализации (Proxmox / KVM / Xen) — будет плюсом.
- Понимание систем автоматического масштабирования и оркестрации (скрипты/инфраструктура как код).
- Умение работать в одиночку: вы будете единственным инженером в отделе инфраструктуры сейчас — высокая степень ответственности и доверия.
Будет преимуществом:
- Опыт с CI/CD и желание развиваться в этом направлении (можно подключать позже).
- Опыт оптимизации нагрузки и затрат в облаке.
- Опыт с инструментами логирования (ELK/EFK) и трассировкой.
- Практика работы с высоконагруженными системами и сценариями Disaster Recovery.
Условия:
- Оформление по ТК РФ и все бонусы аккредитованной IT-компании;
- Удалённая работа: график 5/2 с 10 до 19 по Москве;
- Дополнительный отпуск для важных событий и помощь в сложные времена;
- Без бюрократии: горизонтальные и открытые коммуникации, быстрое обсуждение идей и принятие решений;
- Оплачиваем участие в конференциях;
- Компенсация 80% стоимости профильных курсов, обучения английскому языку, спорта, психотерапии.