ML Ops / SRE инженер (Highload ML системы)
Мы развиваем интеллектуальное ядро сети ресторанов с высоконагруженной рекомендательной системой (500+ RPS), предиктивной аналитикой и собственными LLM. Ищем опытного инженера для развития нашей ML-платформы в сильном профессиональном коммьюнити.
Что предстоит делать:
Поддержка и оптимизация MLOps-инфраструктуры: CI/CD (GitLab CI, ArgoCD), MLflow, DVC
Обеспечение надежности highload-сервисов (SLA/SLO, auto-scaling, мониторинг)
Развитие GPU-инфраструктуры (Kubernetes, NVIDIA, bare metal с MAAS)
Работа с различными СУБД: ClickHouse, Postgres, MongoDB, Milvus/Qdrant, Redis/Memcached/Dragonfly/KeyDB
Мы ждем, что ты:
Имеешь реальный опыт поддержки highload ML-систем (100+ RPS)
Глубоко понимаешь Kubernetes и работу с GPU
Практически применял(а) MLOps-инструменты (MLflow, DVC, Seldon Core/KServe)
Имеешь опыт работы с различными СУБД (ClickHouse, Postgres, MongoDB, векторные БД)
Владеешь продвинутыми навыками Linux-администрирования и bash-скриптинга
Можешь привнести экспертизу в построение надежных ML-систем
Будет преимуществом:
Знание Python для работы с ML-инфраструктурой
Опыт с NVIDIA Triton, LLM, Airflow
Наш стек:
Kubernetes, NVIDIA GPU, Docker, GitLab CI, ArgoCD, Ansible, MLflow, DVC, ClickHouse, Postgres, MongoDB, Milvus/Qdrant, Prometheus, VictoriaMetrics, Grafana, Kibana, ELK, HaProxy, Nginx.
Мы предлагаем тебе:
Сложные задачи на highload ML-системах
Работу в сильном профессиональном коммьюнити
Возможность влиять на развитие технологического стека