Компания CompleteSoft в поисках ML Engineer.
Мы ищем коллегу с 4+ лет опыта разработки.
Чем предстоит заниматься:
- Проектирование, создание и поддержка масштабируемых конвейеров ETL/ELT для пакетной обработки данных и обработки данных в режиме реального времени.
- Сбор и интеграция данных из различных структурированных (API, базы данных) и неструктурированных источников, PDF-файлов, отсканированных документов, электронных писем, счетов-фактур, аудио- и видеоматериалов, журналов.
- Внедрение процессов EDA, очистки, преобразования и обогащения данных для эффективного внедрения решений ИИ/МО, RAG, агентов ИИ, автоматизации рабочих процессов и панелей мониторинга.
- Работа с различными решениями для хранения данных (RDBMS, NoSQL), создание запросов и извлечение данных.
- Оптимизация производительности обработки данных за счет улучшения выполнения запросов, индексации и форматов хранения.
- Работа с Gen AI Vector DB, LLM, RAG) для проектирования данных и внедрения решений ИИ/МО.
- Выявление и устранение сбоев конвейера, несоответствия данных и узких мест системы.
- Обеспечение применения политик шифрования и управления для защиты конфиденциальных данных.
Что ждем от Вас:
- Опыт от 4 лет практического опыта работы.
- Свободное владение Python, скриптами Unix Shell и SQL (PostgreSQL, MySQL) или Java для обработки данных.
- Практический опыт в области методов науки о данных и инженерии данных, а также облачных платформ, включая опыт управления большими неструктурированными и структурированными данными.
- Наличие сертификата по облачным технологиям будет преимуществом.
- Практический опыт построения и оптимизации конвейеров ETL/ELT с использованием таких инструментов, как Apache Airflow или аналогичных.
- Опыт работы с инструментами извлечения документов AWS (Glue, Redshift, S3), такими как AWS Textract или Azure.
- Большой опыт работы с фреймворками больших данных и распределенных вычислений, такими как Apache Spark, Hadoop или аналогичными технологиями.
- Опыт проектирования и управления хранилищами данных с использованием таких платформ, как Redshift или BigQuery.
- Оптимизированные запросы к базе данных и хранимые процедуры для повышения производительности пакетных заданий AWS.
- Знание инструментов обработки данных в реальном времени, таких как Apache Kafka, Flink или Kinesis.