Обязанности
Управление командой и развитие сотрудников:
- руководство инженерами 1-й и 2-й линий поддержки, распределение задач, контроль качества работы
- наставничество, обучение и развитие технических навыков команды
- проведение регулярных встреч, разбор сложных инцидентов, организация рабочих процессов
Организация взаимодействия между линиями поддержки:
- разработка и оптимизация процессов эскалации между 1-й, 2-й и 3-й линиями поддержки
- координация работы с командой разработки и hardware-инженерами (3-я линия) для оперативного решения критических инцидентов
- проведение постмортемов по серьёзным инцидентам с участием всех заинтересованных сторон
Развитие системы мониторинга и аналитики:
- организация и развитие централизованного мониторинга состояния инфраструктуры клиентов
- внедрение проактивного анализа метрик и логов для предотвращения сбоев
- координация разработки и улучшения инструментов мониторинга (Prometheus, Grafana, Zabbix и др.)
Управление базой знаний и документацией:
- создание, структурирование и ведение базы знаний (Knowledge Base) для команды поддержки и клиентов
- разработка и актуализация регламентов, инструкций и шаблонов для работы технической поддержки
- внедрение стандартов документирования инцидентов и решений
Ведение реестра клиентов и отчетность:
- формирование и ведение реестра клиентов, учёт особенностей их инфраструктуры и сервисов
- анализ обращений клиентов, выявление повторяющихся проблем и системных улучшений
- подготовка отчётов по работе поддержки: SLA, статистика инцидентов, удовлетворённость клиентов
Автоматизация и улучшение процессов:
- инициация и координация проектов по автоматизации рутинных операций (сбор логов, health-чеки, деплой)
- внедрение лучших практик SRE для повышения надежности сервисов
- Участие в развитии инструментов развертывания и управления конфигурациями.
Требования
- опыт работы в роли техлида технической поддержке (2-я/3-я линия), SRE или DevOps от 3 лет
- глубокие знания Linux, сетевых технологий, мониторинга, контейнеризации (Docker) и оркестрации (Kubernetes)
- навыки написания скриптов (Python/Bash) и понимание принципов автоматизации
- опыт построения и оптимизации процессов технической поддержки (ITIL, Incident Management)
- умение работать с базами знаний, документацией и регламентами
- сильные коммуникативные навыки, способность работать с клиентами и внутренними командами
- лидерские качества, ответственность, ориентированность на результат
Будет огромным плюсом:
- опыт работы с аппаратным обеспечением (серверы, GPU)
- понимание принципов работы LLM и машинного обучения
- опыт внедрения практик SRE в распределенных системах
- сертификации в области ITIL, Linux, Kubernetes.
Условия
- ДМС с первого рабочего дня
- работа в аккредитованной IT компании
- льготная ипотека от Сбера
- локация: Москва, м. Цветной бульвар.
- участие в развитии одного из ключевых направлений GenAI Сбера
- возможность работать с крупнейшими российскими компаниями и промышленными холдингами
- команду экспертов и доступ к передовым технологиям GenAI/LLM
- обучение, рост и участие в стратегических проектах по трансформации отраслей.