ML-инженер

Описание вакансии

SalesAI — это ИТ-партнер компании Бина Групп.

В 2025 году LLM перестали быть игрушкой и стали драйвером выручки. SalesAI 2.0 — это не просто транскрибация звонков, это Deep Tech платформа, которая понимает сложные паттерны продаж (BANT, FFF, LAARC) лучше, чем сами менеджеры и увеличивает прибыль. Мы анализируем миллионы минут, вытаскиваем инсайты из хаоса живой речи и даем бизнесу (МТС, Газпром нефть и др.) инструмент для кратного роста конверсии.

Мы ищем ML/DS инженера, который превратит сырой текст и аудио в структурированные данные. Ты не просто «тренируешь модельки в ноутбуке», ты строишь RAG-конвейер, который работает в реальном времени, не галлюцинирует и выдает строгий JSON там, где другие LLM сдаются.

Что тебе предстоит:

Построить Production RAG Pipeline: Реализовать гибридный поиск (Dense + Sparse/BM25) для извлечения бизнес-сущностей (Свойства/Выгоды/Преимущества, BANT) с использованием Few-Shot примеров;
Укрощать LLM: Промпт-инжиниринг уровня God Mode (System prompts, Chain-of-Thought) для моделей Qwen/Llama/GPT-4o, чтобы получать валидный JSON со сложной вложенностью (FFF-фреймворк, обработка возражений);
Работать с ASR и Diarization: Оптимизация Whisper (large-v3), докрутка диаризации (Pyannote), борьба с шумами и склейкой спикеров;
Организовать Eval-loop: Настроить автоматическую оценку качества (LLM-as-a-Judge) и валидацию метрик (Precision/Recall) для каждого лейбла;
Деплоить и оптимизировать: vLLM, TGI, квантование моделей (AWQ/GPTQ) для влезания в GPU-бюджеты без потери качества.

Что мы ждём от тебя:

Уверенный Python: Pydantic, FastAPI, async — код должен летать в проде, а не умирать при нагрузке;
Глубокое понимание NLP: Transformers, Embeddings (e5/bge-m3), Vector DBs (Chroma/pgvector/Milvus);
Cursor/Codex/ClaudeCode — MUST HAVE: Ты пишешь код быстрее, чем думаешь, потому что умеешь делегировать рутину AI;
Опыт с LLM в проде: Знаешь, как заставить модель следовать JSON Schema, и понимаешь, чем RAG отличается от Fine-tuning (и когда нужно и то, и другое);
Математика и здравый смысл: Понимаешь метрики классификации, умеешь работать с несбалансированными данными и русским языком (морфология, сленг);
Не академический подход: Нам нужен результат (точность извлечения >90%), а не красивая статья на arXiv.

Будет круто, если ты:
Умеешь готовить Triton Inference Server, работал с ONNX/TensorRT, пробовал LoRA/QLoRA для дообучения локальных моделей на специфичных доменах продаж.

Условия:

Заработная плата 300 000-500 000 ₽/мес на руки (обсуждаемо при наличии уникальной экспертизы);
Оформление по ТК РФ с первого рабочего дня;
Опцион — за вклад в интеллектуальное ядро продукта;
Работа напрямую с фаундером и технической командой, где код деплоится, а не пылится;
Российская инфраструктура, но передовой стек (H100/A100 в доступе);
Никакого фитнеса и печенек — только хардкор, RAG, терабайты логов и задачи, от которых плавится мозг;
Твои алгоритмы будут напрямую влиять на миллиардные сделки наших клиентов.

Если тебе нравится сложность, когда нужно заставить нейронку «понимать» человеческую психологию продаж — пиши. В сопроводительном обязательно: твой любимый AI-IDE и лучший кейс использования LLM для структурирования данных (кратко).