Разработка инфраструктуры для обучения моделей: настройка TorchServe, Triton Inference Server.
Реализация решений по квантованию моделей (QAT), оптимизации скорости inference.
Построение пайплайнов для дообучения и тюнинга моделей.
Интеграция локальных моделей GPT или других open-source решений в системы.
Настройка системы fallback с GPT на локальные модели при недоступности API или превышении лимитов.
Мониторинг метрик качества моделей через MLflow или Weights & Biases.
Создание прототипов MVP интерфейсов для демонстрации ML решений (HTMX/Streamlit).
Работа с векторными базами данных (FAISS) для поиска релевантных данных.
Глубокая экспертиза в Python: asyncio, threading, multiprocessing; профилирование CPU/memory-bound задач.
Уверенное владение FastAPI + Pydantic v2 (асинхронная архитектура).
Опыт работы с базами данных: PostgreSQL, Redis, MongoDB — проектирование схем и индексов.
Контейнеризация: Docker/Docker Compose; базовое понимание Kubernetes.
Опыт настройки очередей сообщений: RabbitMQ/Kafka; Celery — обработка задач с retry и dead-lettering.
Навыки работы с ML-инфраструктурой: TorchServe, Triton Inference Server; ONNX Runtime.
Желательные навыки
Работа с моделями open-source или собственными моделями GPT/LLM (квантование).
Построение пайплайнов обучения/дообучения моделей.
Использование MLOps инструментов для отслеживания версий моделей и метрик.