Ищем Middle System Engineer, который поможет превратить поддержку инфраструктуры в систему: меньше алертов, больше стандартных решений и повторяемых процессов.
Геораспределенная инфраструктура (4–6 площадок), критичность почти везде 24/7, масштаб — 300+ серверов/ВМ.
ОС: Linux (Ubuntu 24 / Rocky 8–9) + Windows Server 2022+.
Мы строим и поддерживаем инфраструктуру бизнес-сервисов компании так, чтобы она:
• выдерживала отказ площадки/узла без “пожаров”,
• оставалась безопасной и управляемой,
• давала понятные метрики в мониторинге,
• обслуживалась через автоматизацию, а не руками.
Чем предстоит заниматься:
- Эксплуатация и развитие инфраструктуры бизнес-сервисов с фокусом на высокую доступность/геораспределение/безопасность/наблюдаемость.
- Реагирование на инциденты и критичные алерты (взаимодействие с аппсаппортом/тестированием/аналитиками), участие в RCA и устранении системных причин.
- Развитие мониторинга: снижение количества алертов, расширение покрытия метриками инфраструктурной части (Zabbix, Prometheus, SCOM).
- Администрирование и поддержка сервисов на Linux и Windows:
o Linux: Nginx/HAProxy/Apache, RabbitMQ, Percona MySQL, OpenSearch (ELK-стек), Prometheus/Grafana.
o Windows: IIS, Failover Cluster, hardening/baselines. - Поддержка региональных Hyper-V гипервизоров: обслуживание, обновления, прошивки, контроль состояния.
- Плотное взаимодействие с разработчиками и архитекторами: траблшутинг, эксплуатационные требования, улучшение надежности.
Что вам для этого нужно:
- Опыт администрирования Linux (Ubuntu/Rocky) и Windows Server 2022+.
- Понимание принципов отказоустойчивости, кластеризации, балансировки нагрузки, практический опыт эксплуатации 24/7.
- Опыт работы с Ansible (playbooks/roles).
- Понимание CI/CD для задач эксплуатации, опыт работы с Azure DevOps/TFS (пайплайны под обновления/рутинные операции).
- Скриптинг: Bash и PowerShell.
- Сети на уровне траблшутинга и общения с командой Телеком: TCP/IP, DNS, HTTP(S), TLS, L4/L7.
- Понимание ИБ-подходов: hardening/baselines, жизненный цикл сертификатов.
Будет плюсом:
- Опыт эксплуатации геораспределенных систем и нескольких площадок.
- Практика поддержки мониторинга: алерт-тюнинг, метрики, дашборды.
- Опыт работы с КриптоПРО HSM (эксплуатация/интеграции/сертификаты).
- Базовый опыт работы с MSSQL/Percona на уровне установки/окружения.
- Автоматизация эксплуатации:
o Terraform/Ansible,
o baseline/hardening плейбуками,
o регулярные обновления/обслуживание/релизы через Azure DevOps/TFS пайплайны.