Мы ищем талантливого Data Scientist для нашей команды, которая проводит исследования и разработки в области NLP и работает с компьютерным зрением. Нам нужен кандидат, который уже имеет успешный коммерческий опыт обучения генеративных NLP моделей, отлично владеет PyTorch и готов развиваться в этой области.
Наш стек:
- Для моделей PyTorch, Scikit-learn;
- NLP: transformers, pymorphy, spacy, NLTK;
- CV: OpenCV;
- SQL (ClickHouse, Vertica), Hadoop (PySpark) AirFlow, MLFlow, Grafana;
- В прод выкатываем через NVIDIA Triton (ONNX, TensorRT);
- Confluence, Jira.
Задачи:
- Разработка и обучение моделей машинного обучения для задач NLP и компьютерного зрения;
- Анализ и обработка данных;
- Работа с PyTorch;
- Участие в R&D проектах;
- Тестирование и оптимизация моделей;
- Поддержка существующих моделей.
Нам важно:
- Коммерческий опыт обучения генеративных NLP моделей от 2 лет;
- Опыт обучения дискриминативных моделей;
- Уверенное знание Python и PyTorch;
- Знание алгоритмов и структур данных уровня LeetCode Medium;
- Отличное знание классического ML и DL;
- Опыт самостоятельного ведения задач на разных этапах проекта;
- Опыт работы с большей частью нашего стека.
Будет плюсом:
- Опыт работы с полным циклом обучения моделей от сбора данных до вывода в прод;
- Опыт работы с CV задачами.