Senior ML Engineer (LLM / RAG)

Алматы, улица Сергея Маркова, 22/37

Описание вакансии

Cybernet AI — международная технологическая компания, разработчик решений на базе цифровых операторов и больших языковых моделей (LLM). Мы помогаем бизнесу по всему миру оптимизировать процессы и масштабироваться. Мы представлены в 12 странах (США, Мексика, Египет, Центральная Азия) и работаем с крупнейшими банками и корпорациями.

В основе нашей работы — инженерная культура, высокий уровень автоматизации и внимание к качеству AI-решений.

Почему открыта вакансия

Мы развиваем Intelligence Core — ключевой мозг нашей платформы. Сейчас мы фокусируемся на глубокой локализации моделей (KZ, UZ), внедрении агентских архитектур и радикальном повышении точности RAG-систем в сложных финансовых доменах.

Чем предстоит заниматься:

Развивать RAG-системы: улучшать качество поиска (retrieval), внедрять и обучать модели ранжирования (re-ranking) и выстраивать пайплайны оценки (evaluation).
Работать с LLM: проектировать сложные цепочки (LangGraph / LlamaIndex), внедрять Tool Usage и Function Calling для интеграции с внешними API.
Локализовать модели: заниматься fine-tuning (LoRA / PEFT) мультиязычных моделей для специфических рынков (KZ, UZ).
Оптимизировать Production: работать над снижением latency и стоимости инференса (vLLM, квантование, кэширование).
Контролировать качество: внедрять методы борьбы с галлюцинациями и выстраивать автоматизированные метрики (Answer Accuracy, MRR, Recall@k).
LLMOps: развивать процессы версионирования промптов, данных и моделей, настраивать CI/CD для ML-компонентов.

Требования:

Опыт в ML: 3–5 лет (из них минимум 1.5–2 года фокуса на NLP/LLM).
LLM Stack: уверенное владение OpenAI, Gemini, Claude и open-source моделями (Qwen, Gemma).
RAG & Vector DB: практический опыт с Milvus, Elasticsearch или аналогами. Глубокое понимание гибридного поиска.
Backend: уверенный Python (async/await), опыт с FastAPI / Flask.
Data: уверенный SQL и опыт построения пайплайнов для обработки текстовых данных.
Инструменты: Docker, LangChain / LangGraph, понимание MLOps циклов.
Английский язык: свободный технический (чтение документации, переписка).

Будет плюсом:

Опыт работы с MCP (Model Context Protocol) или аналогичными подходами.
Опыт вывода LLM-решений в High-load production (10k+ RPS).
Понимание trade-offs между качеством, скоростью и стоимостью инференса.
Опыт развёртывания и оптимизации inference (vLLM, quantization).

Условия:

Формат работы: удаленно / гибрид / офис (Алматы).
График: 5/2, полная загрузка (40+ часов).
Корпоративное питание (обеды за счет компании).
Абонемент в тренажёрный зал за счет компании.
Обучение и профильные курсы за счет компании.

Что будет считаться успехом:

Качество: Рост метрик RAG (recall@k, MRR, Answer accuracy).

Эффективность: Снижение latency и стоимости инференса без потери качества.

Стабильность: Повышение отказоустойчивости продакшн-систем и минимизация галлюцинаций.

Скорость внедрения: Реализация улучшений retrieval и reranking с измеримым бизнес-эффектом.

Формат взаимодействия: Работа в кросс-функциональной среде с ML TL, Backend и Infra командами. Открытая культура обмена знаниями и акцент на measurable результатах.

Если это про тебя — ждем тебя в нашей команде!

Посмотреть контакты работодателя