Обязанности:
- Инженер SRE участвует в поддержании стабильности систем и сервисов компании, внедряет мониторинг, алертинг и инструменты для анализа производительности. Задачи включают автоматизацию рутинных процессов, сопровождение контейнерной инфраструктуры, оптимизацию ресурсов и обеспечение высокой доступности. Также специалист участвует в расследовании инцидентов, внедряет улучшения для предотвращения их повторения и повышает общий уровень операционной эффективности. Команда работает в тесной связке с разработчиками, администраторами поддержки, тестировщиками и DevOps для достижения стабильной и масштабируемой архитектуры.
Требования: - Monitoring/Observability: уверенный опыт с Prometheus + Grafana (метрики, дашборды, алерты, базовый PromQL).
- Linux: уверенная работа в Linux (CLI, сеть/процессы, systemd, логи, диагностика производительности на базовом уровне).
- Язык программирования: опыт автоматизации/разработки на одном из: Java / Go / Python (скрипты/утилиты/небольшие сервисы для эксплуатации).
- Incident response mindset: готовность участвовать в решении инцидентов и дежурствах (on-call), желание разбираться в причинах деградаций по метрикам/логам и доводить до улучшений, желательно опыт работы с метриками/логами при поиске причин
- AI/LLM в эксплуатации: опыт внедрения или пилота ИИ-решений для эксплуатации/инцидентов (например: автоклассификация инцидентов, RCA-помощник, чат-бот по runbook/knowledge base, RAG по базе инцидентов) - важно: конкретный кейс/результат
- Опционально (будет плюсом):
- Docker / Docker Compose / Kubernetes
- Zabbix
- Git + CI/CD: умение пользоваться Git, понимание пайплайнов, релизов, rollback/canary (минимум)
- Логи/трейсинг: ELK/Loki, OpenTelemetry
- SLO/SLA, error budget
- Автоматизация runbooks/health-checks, снижение MTTR и повторяемости инцидентов
- SQL (PostgreSQL или другой SQL): чтение и базовая оптимизация запросов (понимание индексов, explain plan, поиск “тяжёлых” запросов).