Рувики - новая интернет-энциклопедия.
Наш продукт – Онлайн-энциклопедия, предоставляющая доступ к миллионам статей, изображений и видеороликов по самым различным темам - от истории и науки до искусства и технологий.
На текущий момент мы усиливаем нашу команду и ищем Middle SRE – Database Reliability (надёжность баз данных)
Задачи:
- Проведение аудита текущей архитектуры баз данных: анализ производительности, узких мест, схемы репликации и стратегий резервного копирования;
- Поддержка и оптимизация MySQL/MariaDB кластеров: настройка multi-master репликации, мониторинг lag-а между дата-центрами, обеспечение консистентности данных;
- Управление шардингом и партиционированием данных MediaWiki: анализ распределения нагрузки по шардам, планирование масштабирования, реализация решардинга;
- Разработка и тестирование стратегий резервного копирования: настройка автоматических бэкапов, валидация восстановления, управление retention policy;
- Оптимизация производительности запросов: анализ медленных запросов MediaWiki, создание и поддержка индексов, работа с query optimization;
- Мониторинг здоровья баз данных: настройка алертов на критические метрики, анализ тенденций роста данных, планирование capacity;
- Обеспечение высокой доступности: настройка автоматического failover между дата-центрами, минимизация downtime при плановых работах;
- Поддержка специфичных для MediaWiki таблиц: оптимизация хранения истории правок, управление таблицами страниц и пользователей, архивирование старых данных;
- Работа с поисковой инфраструктурой: поддержка синхронизации данных с Elasticsearch/CirrusSearch, оптимизация индексации контента;
- Участие в дежурствах (OnCall): быстрое реагирование на проблемы с БД, диагностика блокировок, восстановление после сбоев, координация с командами разработки;
- Планирование и выполнение миграций схемы данных: безопасные ALTER операции на больших таблицах, zero-downtime deployments;
- Документирование архитектуры БД, процедур восстановления и best practices для команды разработки.
Требования:
- Опыт администрирования MySQL/MariaDB в высоконагруженных системах с объемом данных 100TB+;
- Глубокое понимание репликации MySQL: master-master, master-slave, GTID-based репликация, устранение конфликтов репликации;
- Практический опыт работы с шардингом и партиционированием: горизонтальное масштабирование, стратегии распределения данных, cross-shard запросы;
- Экспертные знания оптимизации производительности MySQL: анализ execution plans, создание composite индексов, оптимизация JOIN операций;
- Опыт планирования и выполнения schema migrations на production системах: pt-online-schema-change, gh-ost, или аналогичные инструменты;
- Понимание специфики MediaWiki схемы данных: структура таблиц page, revision, text, user, оптимизация запросов для wiki-контента;
- Практический опыт настройки резервного копирования: Percona XtraBackup, mysqldump для больших БД, point-in-time recovery;
- Знание принципов обеспечения высокой доступности: ProxySQL, HAProxy для балансировки нагрузки на БД, automated failover решения;
- Опыт мониторинга баз данных: настройка метрик в Prometheus, анализ performance_schema, работа с Percona Monitoring and Management;
- Понимание принципов ACID, изоляции транзакций, deadlock detection и resolution в высоконагруженных системах;
- Навыки capacity planning: прогнозирование роста данных, планирование upgrade hardware, оптимизация использования дискового пространства;
- Опыт работы с географически распределенными БД: cross-datacenter репликация, latency optimization, conflict resolution;
- Готовность к регулярным дежурствам и работе в условиях высокой ответственности за сохранность и доступность данных MediaWiki;
- Умение читать и анализировать код MediaWiki для понимания паттернов использования БД и оптимизации под специфику приложения;
- Навыки автоматизации: написание скриптов (Python/Bash) для мониторинга, бэкапов, автоматических проверок целостности данных;
- Понимание принципов работы поисковых систем: синхронизация данных с Elasticsearch, оптимизация индексации для поиска по многоязычному контенту;
- Опыт работы с системами управления конфигурацией: автоматизация настройки MySQL через Ansible, version control конфигураций;
- Сильные навыки troubleshooting: умение быстро диагностировать проблемы производительности, блокировки, проблемы репликации под давлением времени.
Условия: - Уровень дохода обсуждается с финальным кандидатом по итогам собеседования.
- Интересные задачи, крутые кейсы, возможность выйти на новый профессиональный уровень.
- 100% «белая» заработная плата, официальное трудоустройство по ТК РФ с первого дня.
- Полная занятость, удаленный или гибридный формат работы в рамках РФ.
- Пятидневная рабочая неделя, с пн-пт.
- Дружный и неравнодушный коллектив профессионалов.
- Программа ДМС после успешного прохождения испытательного срока.