Работа в области Data Science с фокусом на решении прикладных задач NLP (обработка естественного языка), CV (компьютерное зрение), классического машинного обучения, а также задач ранжирования и рекомендаций.
Применения SOTA (State-of-the-Art) моделей и подходов как минимум в одном из доменов: NLP, CV, Recsys.
Работа с большими данными и выводом моделей в продуктовый контур.
Разработка и внедрение моделей для бизнес подразделений, развертывания моделей в продакшн с использованием Docker, Kubernetes, а также технологий для мониторинга и управления моделями (например, MLflow, ClearML).
Требования:
Глубокое знание машинного обучения (регрессия, классификация, кластеризация, временные ряды и др.).
NLP: опыт работы с трансформерными моделями (например, BERT, GPT-like, RoBERTa и др), навыки работы с генеративными моделями и системами анализа текста (NER, классификация текстов, эмбеддинги, синтаксический и семантический анализ), построение чат ботов, опыт обучения ускорения и вывода в продакшн LLM.
Компьютерное зрение (CV): знание и опыт работы с (ResNet, EfficientNet и др.), детекторами (YOLO, Faster R-CNN) и GAN, опыт обучения ускорения и вывода в продакшн vLLM.
Опыт создания рекомендательных систем и решений для ранжирования, использование моделей, таких как Matrix Factorization, Neural Collaborative Filtering, Sequence Models (например, BERT4Rec, GPT4Rec) и др.
Знание и опыт работы с SOTA методами и моделями: fine-tuning и дообучение больших предобученных моделей для специализированных задач.
Опыт работы с инфраструктурой: Hadoop, Spark, Apache Kafka, SQL, Airflow, S3.
Сильные навыки программирования на Python (основные библиотеки: TensorFlow, PyTorch, scikit-learn, pandas, numpy и др.), а также знание SQL и Git.
Навыки оптимизации и развертывания моделей в продакшн с использованием Docker, Kubernetes, а также технологий для мониторинга и управления моделями (например, MLflow, ClearML).