Команда отвечает за внутренние сервисы разработки VK: GitLab, TeamCity, Nexus и Allure TestOps. Эти сервисы используются командами по всей компании и обеспечивают ежедневную работу с кодом, сборками, артефактами, зависимостями и тестовыми прогонами.
В фокусе команды — стабильность, предсказуемость изменений, снижение технического долга и уменьшение ручной эксплуатации. Изменения в этих сервисах влияют не на отдельную команду, а на разработку большого числа продуктов VK.
Задачи
- Эксплуатация и развитие GitLab, Teamcity, Nexus, Allure, Vault
- Поддержка HA-инсталляций: узлы, роли, балансировка, отказоустойчивость
- Диагностика инцидентов: логи, метрики, конфиги, сетевые ошибки, права, интеграции
- Участие в обновлениях и регламентных работах
- Поддержка интеграций между сервисами и внутренними системами
- Автоматизация типовых операций через API/скрипты
- Поддержка мониторинга и алертинга
- Ведение технической документации и инструкций для пользователей
Мы ожидаем
- Уверенное владение Linux на уровне production-администрирования и troubleshooting
- Опыт администрирования TeamCity в production-среде с большим количеством агентов, сборок и пользователей
- Опыт администрирования GitLab
- Опыт работы с инфраструктурными зависимостями: PostgreSQL, Redis, S3/object storage, NFS/СХД
- Понимание сетевой базы: TCP/IP, DNS, HTTP/HTTPS, TLS, балансировка, reverse proxy
- Опыт настройки и сопровождения мониторинга, алертинга и технических дашбордов
- Навыки автоматизации административных операций через Bash/Python и REST API
- Навыки траблшутинга (Linux, Postgres, сети, HTTP)
- Опыт работы с Ansible
Будет плюсом
- Глубокое понимание HA-инсталляций GitLab Self-Managed / EE и опыт администрирования под высокой нагрузкой
- Опыт эксплуатации Nexus как корпоративного хранилища артефактов и Docker Registry
- Опыт администрирования Allure TestOps и интеграций с корпоративными CI/CD-системами
- Опыт администрирования HashiCorp Vault в production, включая политики, секреты, токены и HA-режим
- Понимание принципов эксплуатации крупных shared-платформ для тысяч внутренних пользователей
- Умение диагностировать деградации сервисов по логам, метрикам, очередям, ошибкам и конфигурации
- Понимание процессов обновления, резервного копирования, восстановления и rollback для критичных сервисов
- Опыт работы с доступами, ролями, токенами, service accounts, LDAP/SSO