Разработка и настройка моделей машинного обучения, оптимизация производительности моделей.
Проект по разработке помощника аналитика.
Обязанности:
- Разработка и настройка моделей машинного обучения для обработки естественного языка (NLP), в том числе крупных языковых моделей (LLM)
- Оптимизация производительности моделей, включая ускорение вычислений и снижение времени отклика
- Настройка API и пайплайнов для интеграции LLM в бизнес-приложения, обеспечение их надежного развертывания и масштабируемости
- Использование инструментов Triton и библиотек для параллелизации и оптимизации вычислений на GPU
- Мониторинг, улучшение и оптимизация моделей с учетом показателей производительности и использования ресурсов
- Поддержка инфраструктуры для отслеживания экспериментов и версий моделей (например, MLFlow или Airflow)
Требования: - Опыт работы ML-инженером — от 3 лет, с фокусом на NLP и большими языковыми моделями
- Глубокое понимание архитектуры LLM и опыта работы с библиотеками PyTorch, Huggingface или аналогичными
- Опыт работы с инструментами и методами оптимизации вычислений на GPU, знание параллельных вычислений и работы с крупными батчами данных
- Опыт создания и развертывания ML-решений с использованием Docker
- Знание Python и опыт работы с фреймворками для создания API (FastAPI, Flask, Django)
- Понимание CI/CD процессов для ML-моделей и опыт автоматизации пайплайнов
- Навыки вывода моделей в прод (Важно!!)
-
Желательные:
- Опыт работы с Triton и другими инструментами оптимизации для LLM.
- Навыки развертывания и использования систем мониторинга и трекинга экспериментов, версионирования данных (например, MLFlow, ClearML, Grafana, Prometeus, DVC).
- Опыт квантизации моделей.
Условия: - Оформление по ТК РФ, полностью "белая" зарплата
- Гибкий график: 5/2, 8-часовой рабочий день
- Удалённый формат работы из любой точки России
- Доступ к масштабным проектам и современным технологиям
- Возможности для профессионального роста и обучения
- Дружная команда экспертов, готовых делиться опытом
-