Москва, Большая кольцевая линия, метро Петровский парк
Метро: ДинамоМы планируем построить и внедрить локальные LLM-решения для автоматизации внутренних бизнес-процессов. Наша цель — обеспечить высокий уровень безопасности данных, контролируемость инфраструктуры и независимость от внешних облачных провайдеров, где это критично. Мы ищем инженера, который сможет спроектировать архитектуру, настроить пайплайны и вывести модели в промышленную эксплуатацию в корпоративном контуре.
Обязанности:
Архитектура и разработка: Проектирование и разработка корпоративной LLM-платформы с фокусом на локальное развертывание (on-premise) и использование open-source моделей;
Интеграция фреймворков: Построение пайплайнов обработки данных и оркестрации запросов с использованием Open WebUI, LiteLLM, Langflow и RAGFlow для создания RAG-приложений и агентных рабочих процессов;
Инфраструктура и инференс: Настройка высокопроизводительного инференса моделей с использованием vLLM для обеспечения низкой задержки и эффективного использования GPU-ресурсов;
Унификация доступа: Настройка единого шлюза для управления подключениями к различным LLM (как локальным, так и внешним через OpenRouter) для гибкости и резервирования;
Интеграция и автоматизация: Встраивание ML-решений во внутренние системы компании (CRM, HRM, документооборот) и автоматизация рутинных задач сотрудников;
MLOps/LLMOps: Внедрение практик мониторинга, версионирования промптов и моделей, а также CI/CD для ML-компонентов.
От 2-х лет коммерческого опыта в разработке и внедрении ML/AI решений;
Стек технологий (Core):
Глубокое знание и опыт работы с указанным стеком: Open WebUI (как интерфейс для взаимодействия с моделями);
LiteLLM (прокси-сервер для унификации API), Langflow или LangChain (оркестрация цепочек), RAGFlow (реализация RAG-пайплайнов);
Опыт оптимизации инференса моделей с использованием vLLM или аналогичных библиотек (TensorRT, ONNX);
Знание OpenRouter как агрегатора API-провайдеров.
Разработка: Продвинутый уровень Python (асинхронное программирование, FastAPI);
Базы данных: Опыт работы с векторными базами данных (Pinecone, Milvus, Qdrant, FAISS);
Инфраструктура: Опыт контейнеризации и оркестрации (Docker и тп), понимание принципов работы GPU в кластере.
Будет плюсом:
Личные качества (Soft Skills):