Сбор и анализ требований: Сбор и документирование требований к данным от заинтересованных сторон, включая анализ текстовых данных (например, пользовательские запросы, логи, документы), определение и анализ пробелов в данных.
Разработка и реализация решений: Разработка и реализация решений для сбора, очистки, преобразования и загрузки данных в хранилище данных.
Анализ данных и создание витрин данных: Глубокий анализ текстовых и структурированных данных для выявления паттернов, закономерностей и аномалий. Классификация текстовых данных по категориям на основе выявленных признаков (например, тематическая группировка, семантический анализ). Создание витрин данных с акцентом на агрегацию и категоризацию информации.
Моделирование данных: Разработка моделей данных, включая методы для работы с текстовыми источниками (например, схемы для хранения метаданных категорий). Обеспечение качества данных через валидацию и нормализацию текстовых полей.
Управление метаданными: Управление метаданными хранилища данных, включая документацию, классификацию и определение правил управления данными.
Поддержка пользователей: Оказание поддержки пользователям хранилища данных в использовании и интерпретации данных, а также предоставление рекомендаций по улучшению использования данных.
Сотрудничество с заинтересованными сторонами: Тесное сотрудничество с заинтересованными сторонами в различных отделах для понимания их потребностей в данные и предоставления соответствующих аналитических решений.
Требования:
Степень бакалавра/магистра в области компьютерных наук, лингвистики,
Сильные аналитические и количественные навыки
Опыт анализа текстовых данных (NLP): токенизация, классификация, извлечение сущностей
Знание SQL, Python (библиотеки: Pandas, NLTK, spaCy, dbt), R
Опыт обработки данных в форматах: Parquet, ORC, Avro, XML, CSV/TSV, JSON
Знание и опыт работы с ETL/ELT, Apache Spark, Apache Airflow, Apache Kafka и Debezium или других инструментов для change data capture (CDC), gitlab
Понимание методологий проектирования Баз Данных (Data Vault, Anchor Modeling) и NoSQL-решений для хранения текстовых данных
Глубокое понимание концепций, технологий и методологий построения хранилищ данных
Опыт работы с инструментами визуализации данных и бизнес-аналитики
Отличные коммуникативные и межличностные навыки
Умение документировать процессы категоризации и паттерны
Опыт написания Технических Заданий
Дополнительные желательные требования (будет плюсом):
Сертификация в области анализа данных или хранилищ данных Data Science или смежных дисциплин.
Опыт работы с большими данными и облачными технологиями
Знание и опыт методов машинного обучения и искусственного интеллекта (ИИ)
Условия:
Формат работы: удаленный или в офисе (Нижний Новгород)
Полис ДМС;
Возможность профессионального развития и карьерного роста, профессиональная команда.
Уровень вознаграждения обсуждается индивидуально с успешным кандидатом.