Алматы, улица Сергея Маркова, 22/37
Cybernet AI — международная технологическая компания, разработчик решений на базе цифровых операторов и больших языковых моделей (LLM). Мы помогаем бизнесу по всему миру оптимизировать процессы и масштабироваться. Мы представлены в 12 странах (США, Мексика, Египет, Центральная Азия) и работаем с крупнейшими банками и корпорациями.
В основе нашей работы — инженерная культура, высокий уровень автоматизации и внимание к качеству AI-решений.
Почему открыта вакансия
Мы развиваем Intelligence Core — ключевой мозг нашей платформы. Сейчас мы фокусируемся на глубокой локализации моделей (KZ, UZ), внедрении агентских архитектур и радикальном повышении точности RAG-систем в сложных финансовых доменах.
Чем предстоит заниматься:
Развивать RAG-системы: улучшать качество поиска (retrieval), внедрять и обучать модели ранжирования (re-ranking) и выстраивать пайплайны оценки (evaluation).
Работать с LLM: проектировать сложные цепочки (LangGraph / LlamaIndex), внедрять Tool Usage и Function Calling для интеграции с внешними API.
Локализовать модели: заниматься fine-tuning (LoRA / PEFT) мультиязычных моделей для специфических рынков (KZ, UZ).
Оптимизировать Production: работать над снижением latency и стоимости инференса (vLLM, квантование, кэширование).
Контролировать качество: внедрять методы борьбы с галлюцинациями и выстраивать автоматизированные метрики (Answer Accuracy, MRR, Recall@k).
LLMOps: развивать процессы версионирования промптов, данных и моделей, настраивать CI/CD для ML-компонентов.
Требования:
Опыт в ML: 3–5 лет (из них минимум 1.5–2 года фокуса на NLP/LLM).
LLM Stack: уверенное владение OpenAI, Gemini, Claude и open-source моделями (Qwen, Gemma).
RAG & Vector DB: практический опыт с Milvus, Elasticsearch или аналогами. Глубокое понимание гибридного поиска.
Backend: уверенный Python (async/await), опыт с FastAPI / Flask.
Data: уверенный SQL и опыт построения пайплайнов для обработки текстовых данных.
Инструменты: Docker, LangChain / LangGraph, понимание MLOps циклов.
Английский язык: свободный технический (чтение документации, переписка).
Будет плюсом:
Опыт работы с MCP (Model Context Protocol) или аналогичными подходами.
Опыт вывода LLM-решений в High-load production (10k+ RPS).
Понимание trade-offs между качеством, скоростью и стоимостью инференса.
Опыт развёртывания и оптимизации inference (vLLM, quantization).
Условия:
Формат работы: удаленно / гибрид / офис (Алматы).
График: 5/2, полная загрузка (40+ часов).
Корпоративное питание (обеды за счет компании).
Абонемент в тренажёрный зал за счет компании.
Обучение и профильные курсы за счет компании.
Что будет считаться успехом:
Качество: Рост метрик RAG (recall@k, MRR, Answer accuracy).
Эффективность: Снижение latency и стоимости инференса без потери качества.
Стабильность: Повышение отказоустойчивости продакшн-систем и минимизация галлюцинаций.
Скорость внедрения: Реализация улучшений retrieval и reranking с измеримым бизнес-эффектом.
Формат взаимодействия: Работа в кросс-функциональной среде с ML TL, Backend и Infra командами. Открытая культура обмена знаниями и акцент на measurable результатах.
Если это про тебя — ждем тебя в нашей команде!
Jet Finance (ТОО Mogo Kazakhstan)
Алматы
Не указана