Data Аналитик, дата-инженер middle+

Москва, инновационный научно-технологический центр МГУ Воробьёвы Горы

Описание вакансии

Tablichki.tech — аналитическая SaaS-платформа для продавцов на маркетплейсах Wildberries и Ozon. Помогаем 500+ клиентам принимать решения на основе данных: управление товарами, прогноз спроса, оптимизация поставок и BI-дашборды в реальном времени.

Продукт признан Wildberries - авторизованный сервис, является резидентом Сколково и отмечен Яндексом на Datalens Festival. Платформа обрабатывает ~0.5 ТБ данных в сутки через 70+ ETL-пайплайнов и продолжает расти.

Мы работаем на результат на растущем рынке, используем самые эффективные методы и технологии, внедряем полный data-стек от загрузки данных до аналитики и помощи в принятии решений. Год работы у нас эквивалентен 5 годам в корпорации по опыту, эмоциям и удовольствию от жизни.

Что предстоит делать

Поддерживать и развивать production-дата-платформу: 70+ ETL-пайплайнов, асинхронные коннекторы к API Wildberries и Ozon
Работать со стеком PostgreSQL (OLTP) → S3 Parquet (промежуточный слой) → ClickHouse (аналитика и BI). Мигрируем пайплайны с PostgreSQL в S3 Data Lakehouse c Apache Iceberg
Развивать distributed task queue на PostgreSQL: приоритизация, heartbeat, retry с exponential backoff, обработка 100k+ задач в сутки
Управлять Kubernetes-кластером: 6 типов воркеров (API / ETL / ML / Sensors / Onboarding / Huge ETL), автоскейлинг через KEDA
Поддерживать и улучшать ML-модель прогноза спроса (scikit-learn) на 5+ млн наборов SKU-регион
Развивать сервис secure embedding для self-hosted DataLens: токенизация, авторизация, изоляция кабинетов клиентов
Строить удобные дашборды на DataLens
Проектировать новые пайплайны и интеграции по мере роста платформы и количества клиентов
Поддержание высокого качества данных - развитие системы мониторинга, разбор инцидентов с данными.
Поддержка и интеграция дата-ядра с фронтом на Django

Требования

Мы ищем ключевого дата-инженера, который будет продолжать развивать нашу зрелую аналитическую платформу для продавцов маркетплейсов. Реализовывать полный цикл анализа данных – подключение, загрузку, моделирование, визуализацию. Позиция подразумевает погружение в методологию.

Обязательно

3+ года опыта в Data Engineering - проектирование и поддержка production ETL-пайплайнов
Уверенное владение Python: asyncio, pandas/polars, обработка больших объёмов данных
Опыт с PostgreSQL и ClickHouse: схемы, партиционирование, оптимизация запросов
Опыт с объектным хранилищем S3 и форматом Parquet
Kubernetes: деплой, настройка воркеров, понимание автоскейлинга
Понимание принципов построения очередей задач, retry-логики, idempotency
Опыт работы с REST API с высокой нагрузкой (rate limits, async, backpressure)
Опыт построения BI-аналитики

Будет плюсом

Опыт интеграции с API Wildberries или Ozon
Опыт с DataLens
Опыт с KEDA и event-driven автоскейлингом
Базовые навыки ML: обучение и инференс моделей на scikit-learn
Опыт построения систем multi-tenant с изоляцией данных

Стек

Core:

Python
SQL
PostgreSQL
ClickHouse
S3 / Parquet
Pandas / Polars
Asyncio

Infrastructure / Scaling:

Docker
Kubernetes
KEDA
Apache Kafka / очереди

AI, ML:

Scikit-learn
Claude Code

DataLens

Условия

Мы находимся в Москве, клиенты по всей России.
Работа в основном удаленно с редким посещением офиса. Иногда офлайн-спринты для быстрого рывка. Если вы не из Москвы - возможны командировки.
Дружный коллектив инженеров, где ценится ваш интеллект и мастерство.
Внедряем ИИ-практики, идем по пути AI first организации.
Приветствуем осознанное внедрение AI во все процессы
В первую очередь, мы получаем удовольствие от жизни, и так совпало, что это происходит, в том числе на работе.
На входе тесты, технические собеседования
Конкурентная заработная плата, обсуждается индивидуально

Наши ценности

Работа на результат
Самый актуальный стек
0% bullshit - 100% common sense
Развиваться в том направлении, в котором хочется, если готов взять за него ответственность.
Data-driven, AI-positive, Data-lover.
Получать удовольствие от жизни и от работы.
Хорошо работать, мощно отдыхать!