Рувики - новая интернет-энциклопедия.
Наш продукт – Онлайн-энциклопедия, предоставляющая доступ к миллионам статей, изображений и видеороликов по самым различным темам - от истории и науки до искусства и технологий.
На текущий момент мы усиливаем нашу команду и ищем Senior SRE – Infrastructure (инфраструктура и автоматизация)
Задачи:
- Проведение аудита текущей инфраструктуры: выявление технического долга, узких мест, рисков отказоустойчивости и безопасности;
- Полная автоматизация инфраструктуры с использованием подхода Infrastructure as Code (IaC): разработка, внедрение и поддержка кода для критически важных компонентов;
- Поддержка и развитие MediaWiki-специфичной инфраструктуры: файловые хранилища (Swift), система загрузки медиа, обработка изображений;
- Поддержка staging-окружений для тестирования изменений MediaWiki и расширений перед деплоем на production;
- Обеспечение географической репликации данных и failover между дата-центрами для обеспечения глобальной доступности;
- Документирование архитектуры, топологии, зависимостей и процедур развертывания/восстановления;
- Разработка, тестирование и регулярная актуализация плана аварийного восстановления (DRP) и процедур disaster recovery;
- Полный переход от ручного управления инфраструктурой к полностью декларативной модели на базе IaC — минимизация человеческого фактора и операционных рисков;
- Участие в дежурствах (OnCall): оперативное реагирование на инциденты, диагностика, устранение и координация с командами;
- Обеспечение возможности безопасного и надежного деплоя в production из GitLab в любое время суток (GitOps-подход).
Требования: - Опыт работы с высоконагруженными веб-приложениями (1M+ RPS) и глобально распределенной инфраструктурой;
- Уверенный опыт работы с Kubernetes (включая настройку кластеров, CNI, ingress-контроллеры, RBAC, мониторинг);
- Глубокие знания Docker и контейнеризации: сборка образов, оптимизация, безопасность, runtime-настройки;
- Опыт проектирования и поддержки инфраструктуры с использованием Terraform и Ansible (модульность, версионирование, управление state);
- Практический опыт работы с CDN, настройкой кэширования, WAF и базовыми принципами сетевой безопасности (firewalls, TLS, DDoS-защита);
- Навыки администрирования и оптимизации СУБД: MySQL / MariaDB (репликация, бэкапы, производительность, настройка под нагрузку);
- Опыт построения и поддержки CI/CD-пайплайнов (предпочтительно на GitLab CI), включая безопасность, артефакты, окружения и управление секретами;
- Практический опыт работы с Apache Kafka/EventStreams для обработки потоков событий правок и изменений;
- Понимание принципов работы поисковых систем (Elasticsearch/CirrusSearch);
- Знание и практическое применение GitOps-подхода, желательно с использованием Argo CD (будет ключевым при переходе на эту модель);
- Готовность к регулярным дежурствам и работе в условиях высокой ответственности за стабильность production-среды;
- Умение писать читаемый, поддерживаемый и тестируемый код на языках автоматизации (Bash, Python или Go — по выбору);
- Умение читать код на PHP и вносить оперативные изменения;
- Сильные навыки документирования и передачи знаний: способность четко описывать архитектуру, процессы и процедуры для команды и L1/L2-поддержки.
- Сильные навыки troubleshooting: умение быстро диагностировать проблемы производительности, блокировки, проблемы репликации под давлением времени.
Условия: - Уровень дохода обсуждается с финальным кандидатом по итогам собеседования.
- Интересные задачи, крутые кейсы, возможность выйти на новый профессиональный уровень.
- 100% «белая» заработная плата, официальное трудоустройство по ТК РФ с первого дня.
- Полная занятость, удаленный или гибридный формат работы в рамках РФ.
- Пятидневная рабочая неделя, с пн-пт.
- Дружный и неравнодушный коллектив профессионалов.
- Программа ДМС после успешного прохождения испытательного срока.