Мы ищем DBА уровня Middle+ / Senior, который поможет развивать и поддерживать базы данных как платформенный сервис: обеспечивать стабильность, производительность, предсказуемость изменений и понятные практики эксплуатации для продуктовых команд.
Наша миссия: Сделать слой данных (БД/кластера/backup/HA/observability) надёжным и удобным, чтобы команды могли: - быстро и безопасно получать новые БД и пользователей - масштабироваться и переживать пики нагрузки - восстанавливаться в понятные RTO/RPO - видеть метрики и причины деградаций - применять изменения схем и миграции без “магии” Идея простая: команда базовой инфраструктуры даёт инструменты, стандарты, автоматизацию и прозрачность, а продуктовые команды развивают сервисы и несут ответственность за свои данные и запросы.
Чем предстоит заниматься:
- Эксплуатировать и развивать production-кластера **PostgreSQL** (и другие СУБД по необходимости: MySQL, ClickHouse, Redis).
- Проектировать и внедрять **HA/DR**: репликация, failover, резервирование, стратегии восстановления.
- Строить и поддерживать **backup/restore**: политики, проверка восстановлений, регулярные учения.
- Работать с **производительностью**: анализ планов запросов, индексирование, настройка параметров, capacity planning.
- Развивать наблюдаемость БД: метрики, алерты, дашборды, логи (Prometheus/Grafana/ELK и др.).
- Автоматизировать операции: provisioning БД/пользователей/прав, стандартные задачи обслуживания, “db as code” подходы.
- Поддерживать безопасную эксплуатацию: контроль доступов, аудит, секреты, сетевые ограничения, hardening.
- Участвовать в расследованиях инцидентов и деградаций: находить первопричины, устранять системно, оформлять postmortem.
- Подготавливать и сопровождать документацию, runbook’и, стандарты эксплуатации, регламенты изменений.
Что для нас важно:
Обязательные технические навыки
- Уверенный опыт администрирования **PostgreSQL** в production (кластерный уровень) - Понимание архитектуры и внутренних механизмов БД: WAL, vacuum, блокировки, репликация, транзакционность.
- Опыт настройки и поддержки **репликации** и сценариев отказоустойчивости.
- Опыт построения **backup/restore** и регулярной проверки восстановления.
- Навыки анализа производительности: планы запросов, индексы, статистика, типовые bottleneck’и CPU/RAM/I/O.
- Хорошее понимание Linux на уровне системной эксплуатации.
- Опыт работы с observability-стеком для БД: метрики/алерты/дашборды.
- Понимание практик change management (миграции, окна изменений, контроль рисков).
- Культура инженерной документации (runbook’и, описания кластеров, схемы).
Будет плюсом:
- Опыт с **Patroni / etcd / Consul**, pgBouncer, pgBackRest (или аналогами).
- Опыт с **ClickHouse** и/или MySQL, Redis (кластерные сценарии).
- Опыт автоматизации на **Python / Go / Bash**, Ansible/Terraform (или аналогами).
- Опыт SRE-подходов для БД: SLO/SLI, error budgets, нагрузочное тестирование.
- Опыт работы с Kubernetes-окружениями (DB access patterns, сетевые политики, сервисы).
Каким мы видим успешного кандидата:
- Мыслит системно и снижает сложность для пользователей (команд разработки).
- Находит первопричину и устраняет класс проблем, а не только “лечит симптомы”.
- Спокойно работает с инцидентами и изменениями, управляет рисками.
- Любит автоматизацию, стандарты и прозрачность.
- Умеет договариваться с командами разработки: доступы, миграции, правила эксплуатации.
Условия:
- Формат работы: офис, гибрид или удалённо — по договорённости.
- Работа в ключевой инфраструктурной функции компании.
- Возможность влиять на развитие платформы данных и инженерных практик.
- Участие в построении современной инфраструктурной модели компании.
- Бюджет на развитие, сертификации и профессиональное обучение.