О компании
Привет! Меня зовут Марк, и я возглавляю компанию, которая разрабатывает ML- и Generative AI-решения для клиентов на международном рынке. Наша главная ценность — выстраивание долгосрочных партнерских отношений и создание технологически продвинутых и надежных продуктов.
О проекте
Мы собираем небольшую команду для Conversational AI проекта, который решает реальные бизнес-задачи. Менеджеры компании используют приватную LLM для получения быстрой аналитики на основе данных Snowflake.
LLM уже обучена составлять сложные SQL-запросы, но наша задача — научить её правильно интерпретировать данные и запросы с учетом специфики бизнеса.
Параллельно мы строим ML-систему для прогноза метрик воронки на основе расходов на рекламу. Результаты этой системы также будут интегрированы в LLM для продвинутого анализа.
Кого мы ищем
Опытного Data Engineer, который возьмет на себя полный цикл работы с данными: от pipelines для ML / LLM до инструкций LLM и тестирования её ответов.
Формат: Full-time контракт на 2.5 месяца (с возможностью долгосрочного участия в будущих GenAI проектах).
Задачи
Data Engineering & ML Preparation:
- Построение data-pipelines на Snowflake: очистка, предподготовка, сегментация.
- Подготовка данных для LightGBM и MMM (Marketing Mix Modeling). Например, разделение на train/test, извлечение lagged metrics, иерархической статистики и сезонностей.
- Написание и оптимизация сложных SQL запросов и Python алгоритмов (выявление аномалий, pivot-таблицы).
- Дизайн архитектуры данных и настройка мониторинга (Task Graph, Alerts).
LLM Integration & Quality Control:
- Написание семантических инструкций и разметка данных для Snowflake Cortex Analyst, Search и Agent.
- Самостоятельное тестирование того, как LLM интерпретирует запросы и генерирует SQL. Вы отвечаете за то, чтобы ответы модели соответствовали бизнес-требованиям.
- Настройка REST API клиентов для редактирования Cortex систем.
Организация работы:
- Самостоятельное ведение задач в ClickUp. Проект требует высокой автономности.
- Документирование процессов на английском (Data Dictionary, Data Flows, и т.п.)
- Взаимодействие с руководителем и уточнение деталей у клиента на английском.
Требования
- Продвинутый уровень в Python & SQL. Написание эффективного, чистого и поддерживаемого кода.
- Понимание принципов построения надежных pipelines (ETL), независимо от инструмента (например, Spark и Airflow).
- Понимание того, как готовить данные для ML-моделей и LLM (контекст, семантика).
- Умение проектировать витрины данных так, чтобы они были понятны не только людям, но и LLM (четкая структура, нейминг, связи).
- Привычка валидировать данные на входе и выходе. Понимание метрик качества данных.
- Способность переводить абстрактные задачи бизнеса на английском («What is the conversion funnel in 2023») в конкретные технические решения и SQL-запросы.
- Умение самостоятельно планировать работу, тестировать свой результат и находить решения.
Будет плюсом
- Разговорный английский.
- Опыт в Snowflake (архитектура, Cortex).
- Знания мат. статистики.
- Опыт скрейпинга данных.
- Опыт с BI-инструментами.
Где мы ищем специалистов
Мы рассматриваем кандидатов из Армении (Ереван), Грузии (Тбилиси), Сербии, Венгрии и Болгарии.
Гибкий график, но важно быть доступным для командных встреч:
- Ежедневный стендап в 11:00 утра (по часовому поясу Армении).
- 1-2 встречи в неделю в период с 18:00 до 20:00.
- 1-2 редкие встречи в месяц могут проходить до 24:00.
Что предлагаем
- Развитие — работа с реальными бизнес-задачами, возможность решать разнообразные ML-задачи.
- Ощутимый вклад — ваши решения напрямую влияют на успех клиентов и развитие компании.
- Инновации — работа над сложными, амбициозными проектами.
- Прямое взаимодействие — небольшая гибкая команда, где ценят идеи и экспертизу.
- Конкурентная компенсация — рейт, соответствующий вашим навыкам и вкладу.
Ждем вашего отклика
Отправляйте резюме и кратко о вашем опыте с ETL и LLM. Поскольку проект стартует скоро, укажите вашу текущую загрузку и желаемый рейт.