Cтарший DevOps-инженер (TeamCity, GitLab)

Описание вакансии

Команда отвечает за внутренние сервисы разработки VK: GitLab, TeamCity, Nexus и Allure TestOps. Эти сервисы используются командами по всей компании и обеспечивают ежедневную работу с кодом, сборками, артефактами, зависимостями и тестовыми прогонами.

В фокусе команды — стабильность, предсказуемость изменений, снижение технического долга и уменьшение ручной эксплуатации. Изменения в этих сервисах влияют не на отдельную команду, а на разработку большого числа продуктов VK.

Задачи

Эксплуатация и развитие GitLab, Teamcity, Nexus, Allure, Vault
Поддержка HA-инсталляций: узлы, роли, балансировка, отказоустойчивость
Диагностика инцидентов: логи, метрики, конфиги, сетевые ошибки, права, интеграции
Участие в обновлениях и регламентных работах
Поддержка интеграций между сервисами и внутренними системами
Автоматизация типовых операций через API/скрипты
Поддержка мониторинга и алертинга
Ведение технической документации и инструкций для пользователей

Мы ожидаем

Уверенное владение Linux на уровне production-администрирования и troubleshooting
Опыт администрирования TeamCity в production-среде с большим количеством агентов, сборок и пользователей
Опыт администрирования GitLab
Опыт работы с инфраструктурными зависимостями: PostgreSQL, Redis, S3/object storage, NFS/СХД
Понимание сетевой базы: TCP/IP, DNS, HTTP/HTTPS, TLS, балансировка, reverse proxy
Опыт настройки и сопровождения мониторинга, алертинга и технических дашбордов
Навыки автоматизации административных операций через Bash/Python и REST API
Навыки траблшутинга (Linux, Postgres, сети, HTTP)
Опыт работы с Ansible

Будет плюсом

Глубокое понимание HA-инсталляций GitLab Self-Managed / EE и опыт администрирования под высокой нагрузкой
Опыт эксплуатации Nexus как корпоративного хранилища артефактов и Docker Registry
Опыт администрирования Allure TestOps и интеграций с корпоративными CI/CD-системами
Опыт администрирования HashiCorp Vault в production, включая политики, секреты, токены и HA-режим
Понимание принципов эксплуатации крупных shared-платформ для тысяч внутренних пользователей
Умение диагностировать деградации сервисов по логам, метрикам, очередям, ошибкам и конфигурации
Понимание процессов обновления, резервного копирования, восстановления и rollback для критичных сервисов
Опыт работы с доступами, ролями, токенами, service accounts, LDAP/SSO