Разработчик AI-агентов (LLM / Node.js)

Астана, улица Гейдара Алиева, 1

Описание вакансии

⏰ Отклики принимаются до 1 декабря. Рассматриваем только грамотно оформленные заявки с сопроводительным письмом.

О компании

IntellectDialog Казахстан — AI-платформа, официальный технический партнёр Meta и резидент Astana Hub. Мы специализируемся на автоматизации бизнес-коммуникаций через WhatsApp Business API и разработке интеллектуальных чат-ботов для корпоративных клиентов.

Обязанности

Проектирование и разработка AI-агентов на базе LLM:

Архитектура мультиагентных систем: оркестрация, делегирование, коммуникация между агентами
Проектирование цепочек рассуждений (Chain-of-Thought, ReAct, Tree-of-Thought)
Декомпозиция сложных задач: разбивка на подзадачи, планирование, валидация промежуточных результатов
Написание структурированных промптов: system/user/assistant роли, few-shot примеры, контекстные инъекции
Условная логика в промптах: ветвление сценариев, guard rails, fallback-инструкции
Function calling: описание схем, роутинг вызовов, обработка ответов, цепочки инструментов
Работа с контекстным окном: управление длиной, приоритизация информации, сжатие истории
Оптимизация промптов: A/B тестирование, метрики качества (accuracy, latency, cost), итеративное улучшение
Обработка edge-cases: галлюцинации, отказы, неожиданные форматы ответов
Prompt injection защита и валидация входных данных

Проектирование и реализация интеграций с внешними API:

Авторизация (OAuth 2.0, API-ключи, JWT, HMAC-подписи)
Управление жизненным циклом токенов (refresh, хранение, инвалидация)
Обработка вебхуков и callback-ов с верификацией подписи
Retry-логика с exponential backoff и jitter
Работа с rate limits: троттлинг, очереди запросов, распределение нагрузки
Пагинация (cursor-based, offset-based), обход лимитов выборки
Обработка ошибок: circuit breaker, graceful degradation, fallback-сценарии
Идемпотентность запросов, дедупликация
Логирование, трейсинг и мониторинг API-вызовов

Дополнительно:

Построение и настройка RAG-пайплайнов: индексация, chunking, retrieval, reranking
Fine-tuning LLM-моделей под специфику бизнес-задач
Мониторинг и оптимизация расхода токенов, контроль стоимости API-вызовов
Разработка нелинейных диалоговых сценариев и AI-ассистентов на чистом коде
Тестирование, отладка и вывод решений в production

Требования

Обязательно:

Уверенное владение Node.js (async/await, работа с очередями, обработка ошибок)
Понимание принципов работы LLM и практический опыт разработки на их базе
Опыт работы с RAG-системами: LlamaIndex, LangChain или аналоги
Понимание архитектуры RAG: эмбеддинги, векторные БД (Pinecone, Weaviate, Qdrant, Chroma)
Навыки отслеживания и оптимизации расхода токенов, понимание ценообразования LLM-провайдеров
Опыт работы с базами данных (PostgreSQL, MongoDB или аналоги)
Уверенная работа с Git (ветвление, code review, CI/CD)
Способность доводить решения от прототипа до боевого состояния

Будет плюсом:

Опыт fine-tuning моделей (OpenAI fine-tuning API, LoRA/QLoRA для open-source моделей)
Опыт создания AI-воркфлоу в n8n
Знакомство с инструментами мониторинга LLM (LangSmith, Helicone, собственные решения)
Опыт разработки Telegram/WhatsApp ботов
Работа с open-source LLM (Llama, Mistral) и их деплой

Условия

Удалённая работа или в офисе г. Астане
Гибкий график
Участие в развитии продукта с нуля
Работа с актуальным AI-стеком и реальными бизнес-кейсами
Возможность профессионального роста в команде

Как откликнуться

Отправьте

Резюме или краткое описание опыта
Ссылку на GitHub (если есть)

Сопроводительное письмо с ответами на вопросы:

Какой самый сложный AI-агент или LLM-интеграцию вы реализовали? Опишите архитектуру и challenges
Как вы подходите к оптимизации промптов? Приведите пример до/после
Опишите ваш опыт работы с RAG: какие проблемы решали, какие инструменты использовали?
Как вы отслеживаете и оптимизируете расход токенов в production?