Data Engineer / Data Analyst (AI/LLM Services)

Описание вакансии

LIAN — системный интегратор с фокусом в аналитике и управлении данными.

Мы работаем в трех направлениях:

1. Автоматизация управленческой отчетности (BI) в малом и среднем бизнесе. Строим хранилища данных, настраиваем сбор и интеграцию, разрабатываем отчеты и дэшборды. Наш стек в BI включает все современные инструменты, в том числе open-source ПО.

2. Заказная разработка аналитических систем. Когда у нашего клиента есть специфичный запрос, мы разрабатываем аналитические системы с нуля. Часто применяем подходы BigData, Data Science, актуальные подходы к программному анализу данных и прогнозированию.

3. Запуск и ресурсное обеспечение команд разработки в комплексных проектах цифровой трансформации. Мы усиливаем команды наших партнеров и клиентов собственными сотрудниками и обеспечиваем максимально быстрый старт новых проектов. Среди наших заказчиков - крупные системные интеграторы, банки, нефтегазовые, химические производства, логистические компании, стартапы.

Сейчас мы приглашаем специалиста на наши проекты ( от 6+ мес) от 5 лет на позициях, связанных с построением и поддержкой инфраструктуры данных (Data Engineer) или глубокой аналитической работой с данными (Data Analyst).

Чем предстоит заниматься:

Разработка пайплайнов для исследований и анализа: Создание и развитие инфраструктуры для подготовки данных в формате, пригодном для задач искусственного интеллекта (обучение LLM, ML-моделей) и сложной аналитики.
Подготовка данных для интеллектуальных сервисов: Формирование и поддержание качественных датасетов для ключевых продуктов, таких как чат-бот на основе языковых моделей и системы машинного обучения для классификации и ранжирования информации.
Управление жизненным циклом ETL-процессов: Полный цикл работ по оркестрации с использованием Apache Airflow: от написания Python-скриптов (DAG) для бизнес-логики до настройки мониторинга, контроля сроков выполнения (SLA) и постоянной оптимизации производительности.
Консолидация и обработка разнородных данных: Интеграция информации из множественных источников, включая внешние новостные ленты, внутренние сервисы и унаследованные системы (MSSQL), в единое пространство для обработки.
Модернизация инфраструктуры данных: Проектирование и оптимизация процессов переноса информации из исторических реляционных баз в современное аналитическое хранилище (DWH).
Аналитическая инвентаризация источников: Системный анализ структуры и содержания источников данных для понимания их потенциала и ограничений.
Внедрение и контроль стандартов данных: Обеспечение воспроизводимости, качества и целостности данных на всех этапах пайплайна через внедрение соответствующих процедур и проверок.
Реализация обработки событий в реальном времени: Работа с потоковой инфраструктурой (Kafka) для настройки приема, обработки и интеграции событийных данных с минимальной задержкой.
Поддержка инфраструктуры машинного обучения: Техническое сопровождение и интеграция компонент MLOps для обеспечения надежного жизненного цикла ML-моделей.

Наши пожелания к кандидатам:

Участие в крупных, долгосрочных (1+ год) проектах по работе с данными от этапа проектирования до внедрения и поддержки.
Минимум 3 года опыта в компаниях, где данные являются ключевым активом и используются для принятия решений (data-driven компании). Опыт в финтех-секторе будет значительным преимуществом.
Оркестрация: Глубокий практический опыт построения отказоустойчивых и масштабируемых ETL-процессов с использованием Apache Airflow.
Программирование: Уверенное владение Python для разработки и поддержки production-ready пайплайнов обработки данных.
Стек технологий: Опыт работы с современным стеком: объектные хранилища (S3/аналоги), потоковая обработка (Kafka, опыт настройки и оптимизации обязателен), реляционные (PostgreSQL, MSSQL) и NoSQL (MongoDB) СУБД, а также колоночные хранилища для аналитики (ClickHouse или аналоги).
Проектирование: Опыт проектирования сквозных процессов ETL/ELT, учитывающих требования как бизнес-аналитики, так и задач машинного обучения.
Понимание и практическое применение принципов многослойной архитектуры данных (сырой, обработанный, потребительский слои).
Опыт проектирования и оптимизации моделей данных, ориентированных на эффективные аналитические запросы и ML-задачи.
Продвинутое владение SQL (CTE, оконные функции) и опыт оптимизации запросов для повышения производительности.
Глубокое понимание устройства и принципов работы реляционных баз данных.
Понимание концепций и практических аспектов потоковой обработки данных.
Обязательный опыт работы с системами контроля версий (Git).

Что мы предлагаем:

Форма трудоустройства на ваш выбор: договору оказания услуг с ИП или самозанятым
Участие в интересных масштабных проектах с Заказчиками федерального и международного уровня
Работа с передовыми технологиями
Возможности профессионального и карьерного роста
Полностью удаленная работа
Регулярная и достойная оплата труда

В нашей команде работают профессионалы с разносторонним опытом. Здесь ты найдешь профессиональные задачи и новые вызовы, сможешь реализовать свой потенциал.
Хочешь стать частью нашей команды? Мы ждем твоего отклика и свяжемся с тобой !