ML-инженер по локальным LLM (Local AI Engineer)

Екатеринбург, Восточная улица, 7Г

Описание вакансии

Добрый день!

Мы "VICTORY group" являемся одним из лидирующих рекламных агентств России. Наши клиенты — это крупнейшие автохолдинги, застройщики, медицинские центры и другие компании различных отраслей.

Более 15 000 компаний каждый месяц доверяют нам!

Ведём работу по двум направлениям:

1. ORM service

Мы более пяти лет работаем в сфере репутационного маркетинга в интернете.
Лучше всех в России понимаем, как работать с негативом.
Помогаем в создании положительного образа компании с гарантией.

2. Лидогенерация

Можем найти заинтересованных клиентов в любой сфере.
Применяем инновационные решения в интернет-маркетинге, показываем лучшие результаты на рынке.

Обязанности:

Транскрибация звонков с диаризацией — развернуть пайплайн (Whisper / WhisperX / pyannote / NeMo), разделять реплики менеджера и клиента, чистый текст с таймкодами, русская речь;
Миграция text2text-задач с внешних API на локалки — аудит задач на Gemini/Claude, подбор локальных моделей (включая квантованные), A/B качества против бейзлайна API, постепенная миграция;
LLM-шлюз / роутер между машинами компьютерных клубов холдинга — очередь, балансировка с учётом загрузки GPU, отказоустойчивость (модель освобождает ресурсы когда садится игрок), приоритизация, единый API;
Замеры throughput (tok/s), latency (TTFT, end-to-end), памяти, качества на наших задачах;
Документация, передача знаний команде разработки.

Требования:

Квантование — практический опыт с GGUF (Q4/Q5/Q6/Q8), GPTQ, AWQ, EXL2, bitsandbytes;
Управление VRAM — KV-cache, model offloading, tensor/pipeline parallelism, гетерогенный парк GPU (разные карты в кластере);
Оптимизация инференса — continuous batching, speculative decoding, paged attention, prefix caching, профилирование узких мест;
Инференс-фреймворки — vLLM / llama.cpp / TGI / Ollama / ExLlamaV2 / TensorRT-LLM (опыт хотя бы с двумя);
Speech-стек — Whisper, faster-whisper, WhisperX, диаризация (pyannote.audio, NeMo), VAD, опыт с русской речью;
Бэкенд — Python (async обязательно), очереди (Redis/RabbitMQ/Kafka), REST/gRPC API;
Linux, Docker, базовые сетевые навыки;
Готовность к переезду в Екатеринбург (релокация оплачивается, включая жильё на первый месяц).