Обязанности:
Работа с неочищенными источниками данных.
Разработка методов интеграции данных из различных источников.
Выявление и устранение противоречий и неточностей в данных.
Создание дата-сетов под задачи.
Проведение разведочного анализа данных (EDA) для выявления особенностей и закономерностей в данных.
Подготовка данных для использования в моделях машинного обучения.
Генерация признаков для моделей машинного обучения.
Требования:
- Знание Python и основных библиотек для классического ML: scikit-learn, XGBoost / CatBoost / LightGBM.
- Владение SQL: умение работать с JOIN, CTE, оконными функциями.
- Настройка ETL-пайплайнов, feature engineering, оптимизация моделей
- Уверенное знание стандартных методов NLP: токенизация, лемматизация; опыт качественного препроцессинга данных.
- Опыт работы в роли Data Analyst / Data Scientist от 1 года.
Будет плюсом:
- Опыт работы с современными архитектурами глубоких нейросетей для NLP: BERT, RoBERTa, модели на Transformers.
- Знание библиотек для обучения нейронных сетей: PyTorch / TensorFlow.
- Навыки работы с компьютерным зрением: классические методы и DL-подходы (OpenCV, torchvision, Ultralytics).
- Опыт работы с локальными LLM (llama.cpp, vLLM).
- Практический опыт сопровождения и развития голосовых ботов на различных платформах.
- Опыт работы с Docker.
- Опыт разработки сервисов на FastAPI.
Задачи:
- Формирование гипотез, построение и тестирование моделей, проведение экспериментов
- Предобработка текстовых данных: токенизация, лемматизация, стемминг.
- Классификация пользовательских запросов и их ранжирование.
- Анализ, разметка и обработка данных (текст, аудио).
- Подготовка воспроизводимых пайплайнов для экспериментов и моделей.
- Разработка PoC (proof of concept), обзор и сравнение научных статей и подходов.
- Разработка метрик качества и построение аналитических дашбордов по различным проектам компании.
Условия:
- Режим работы: пятидневка, с 08-00 до 17-00 часов.
- Компенсация за обед.
- Отпуск 30 календарных дней.
- Мобильная связь.
- 13-я заработная плата.