Сбор, обработка, анализ и визуализация больших объемов данных из различных источников (базы данных, API, файлы, потоки данных).
Разработка и внедрение алгоритмов машинного обучения (Machine Learning) для решения задач прогнозирования, классификации, кластеризации, рекомендаций и т.д.
Проведение статистического анализа данных и интерпретация полученных результатов.
Формирование регулярной и ad-hoc отчетности на основе анализа данных.
Сверка данных и документов для обеспечения их целостности и достоверности.
Формирование требований к отчетности (определение метрик, показателей, форматов представления данных) в соответствии с потребностями подразделения.
Создание отчетов, дашбордов и презентаций с результатами анализа для руководства и заинтересованных сторон.
Взаимодействие с другими командами (разработчики, аналитики, бизнес-пользователи) для понимания потребностей и разработки эффективных решений.
Документирование разработанных решений и процессов.
Требования
Опыт работы не менее 1 года в области анализа данных, машинного обучения или обработки больших данных.
Обязательно: знание Python, включая библиотеки для анализа данных (Pandas, NumPy), машинного обучения (Scikit-learn, TensorFlow, PyTorch) и визуализации (Matplotlib, Seaborn)
Желательно: Знание языка R, включая библиотеки для статистического анализа и визуализации.
Опыт работы с SQL и реляционными базами данных (PostgreSQL, MySQL, и т.д.);
Опыт работы с Hadoop, Spark, Hive, Presto, Kafka, Airflow (или аналогичными технологиями)
Умение визуализировать данные и представлять результаты анализа.