Инженер инфраструктуры/DevOps Middle+

Санкт-Петербург, Чкаловский проспект, 50

Описание вакансии

Мы в Kassir.ru усиливаем инфраструктурную команду и ищем коллегу, который уверенно чувствует себя на стыке классической инфраструктуры и DevOps-подходов. У нас большой парк сервисов и много “живого” железа, поэтому роль про реальную эксплуатацию: от стоек и сети до автоматизации и наблюдаемости.

Команда инфраструктуры — это про стабильность, скорость реакции и здравую автоматизацию. Задачи разноплановые: Linux, сеть, Kubernetes, автоматизация, “почему стало медленно”, “почему не встало после обновления”. Мы за то, чтобы упрощать систему и уменьшать ручной труд, но при этом понимаем, что в живой инфраструктуре полностью “без рук” не бывает.

Задачи для нового сотрудника:

Поддерживать и развивать инфраструктуру: физические серверы, виртуализацию и связанные сервисы.
Администрировать Kubernetes-кластеры: базовая эксплуатация, обновления, контроль ресурсов, разбор инцидентов, взаимодействие с сетями/хранилищами, повышение стабильности.
Работать с балансировщиками и фронтовыми слоями: HAProxy / Nginx (настройка, тюнинг, диагностика).
Вести и развивать виртуализацию на Proxmox.
Держать в порядке инвентаризацию и схемы: NetBox.
Автоматизировать: Ansible, оркестрация через AWX / Semaphore.
Разбирать инциденты и проблемы в Linux: диагностика, поиск узких мест, root cause.
Работать с сетевым стеком: TCP/IP, маршрутизация/ACL/VLAN’ы (на уровне уверенного понимания и практики).
Развивать наблюдаемость:
- логирование ELK stack, Vector,
- метрики/алерты Prometheus stack.
Взаимодействовать с разработкой и CI/CD: GitLab CI, помощь в “приземлении” пайплайнов на инфраструктуру.
По необходимости — задачи в серверной: стойки, кабели, замены, удалённые руки, взаимодействие с ДЦ.

Наши пожелания к кандидату:

Уровень Middle+ / Senior.
Уверенный Linux troubleshooting.
Администрирование Kubernetes (не “пощупал kubectl”, а именно эксплуатация кластера и разбор проблем в проде).
Практический опыт с:
- HAProxy и/или Nginx,
- Proxmox,
- Ansible (плейбуки, роли, идемпотентность),
- AWX / Semaphore,
- NetBox,
- Prometheus/Grafana/Alertmanager,
- ELK и/или потоками логов через Vector.
Хорошее понимание сети: TCP/IP, диагностика (tcpdump, ss/netstat, traceroute), типовые проблемы.
Опыт эксплуатации PostgreSQL на инфраструктурном уровне (бэкапы/мониторинг/базовая диагностика).
Аккуратность с изменениями, привычка к git и документации.

Будет большим плюсом:

Опыт работы в среде с большим количеством сервисов и высокой ценой простоя.

Опыт выстраивания процессов эксплуатации: регламенты, on-call, постмортемы, SLO/алерты “без шума”.

Умение нормально взаимодействовать с разработкой: без “это не ко мне”, а по делу и на результат.

Мы предлагаем:

Официальную оплату труда, оформление по ТК РФ.
ДМС после испытательного срока.
Формат работы - удаленка, но с возможностью иногда (по необходимости) приезжать в офис.