Добрый день!
Мы "VICTORY group" являемся одним из лидирующих рекламных агентств России. Наши клиенты — это крупнейшие автохолдинги, застройщики, медицинские центры и другие компании различных отраслей.
Более 15 000 компаний каждый месяц доверяют нам!
Ведём работу по двум направлениям:
1. ORM service
Мы более пяти лет работаем в сфере репутационного маркетинга в интернете.
Лучше всех в России понимаем, как работать с негативом.
Помогаем в создании положительного образа компании с гарантией.
2. Лидогенерация
Можем найти заинтересованных клиентов в любой сфере.
Применяем инновационные решения в интернет-маркетинге, показываем лучшие результаты на рынке.
Обязанности:
- Транскрибация звонков с диаризацией — развернуть пайплайн (Whisper / WhisperX / pyannote / NeMo), разделять реплики менеджера и клиента, чистый текст с таймкодами, русская речь;
- Миграция text2text-задач с внешних API на локалки — аудит задач на Gemini/Claude, подбор локальных моделей (включая квантованные), A/B качества против бейзлайна API, постепенная миграция;
- LLM-шлюз / роутер между машинами компьютерных клубов холдинга — очередь, балансировка с учётом загрузки GPU, отказоустойчивость (модель освобождает ресурсы когда садится игрок), приоритизация, единый API;
- Замеры throughput (tok/s), latency (TTFT, end-to-end), памяти, качества на наших задачах;
- Документация, передача знаний команде разработки.
Требования: - Квантование — практический опыт с GGUF (Q4/Q5/Q6/Q8), GPTQ, AWQ, EXL2, bitsandbytes;
- Управление VRAM — KV-cache, model offloading, tensor/pipeline parallelism, гетерогенный парк GPU (разные карты в кластере);
- Оптимизация инференса — continuous batching, speculative decoding, paged attention, prefix caching, профилирование узких мест;
- Инференс-фреймворки — vLLM / llama.cpp / TGI / Ollama / ExLlamaV2 / TensorRT-LLM (опыт хотя бы с двумя);
- Speech-стек — Whisper, faster-whisper, WhisperX, диаризация (pyannote.audio, NeMo), VAD, опыт с русской речью;
- Бэкенд — Python (async обязательно), очереди (Redis/RabbitMQ/Kafka), REST/gRPC API;
- Linux, Docker, базовые сетевые навыки;
- Готовность к переезду в Екатеринбург (релокация оплачивается, включая жильё на первый месяц).
Плюсом будет:
- Fine-tuning под доменные задачи (LoRA / QLoRA);
- RAG-системы, векторные БД (Qdrant, Weaviate, pgvector);
- Мониторинг ML-систем (Prometheus, Grafana, кастомные метрики качества);
- Опыт с распределёнными системами и балансировкой нагрузки в проде;
- Свой Telegram-канал / GitHub с проектами по локальному инференсу;
- Опыт MLOps (model registry, эксперимент-трекинг).
Условия:
- Адрес офиса: г. Екатеринбург, ул. Восточная 7Г (ТЦ "Восточный);
- График: 5/2 (пн-пт) с 10:00 до 19:00;
- Уровень заработной платы обсуждается индивидуально по итогам собеседования;
- Релокация оплачивается (включая жильё на первый месяц);
- Бюджет на эксперименты, подписки, обучение;
- Свобода технических решений (стек, фреймворки, архитектура);
- Перспектива профессионального и карьерного роста.