Москва, улица Клары Цеткин, 2
Метро: Балтийскаяпроектировать и строить RAG-пайплайны (выстраивать весь цикл жизни данных для RAG: от извлечения из API (REST/GraphQL), веб-скрапинга (Scrapy) и парсинка сложных документов (PDF, DOCX) до тонкой очистки, сегментации на смысловые блоки и обогащения метаданными, настраивать и оптимизировать векторные хранилища (Qdrant, Weaviate), чтобы поиск был молниеносным и точным.
автоматизировать мир вокруг (взять под контроль ключевые бизнес-процессы, настроив CDC для SAP HANA и других систем, чтобы наши агенты всегда работали с актуальной информацией, а не вчерашними данными, построить отказоустойчивые DAG в Airflow/Prefect, которые будут работать как швейцарские часы, а твоя система мониторинга (Grafana/Prometheus) предупредит о любой аномалии раньше, чем она станет проблемой.
создавать данные из ничего (когда реальных данных не хватает - использовать LLM для генерации синтетических датасетов, создавая идеальные данные для обучения и тестирования наших агентов.
имеете опыт от 1 года в роли Data Engineer и уверенно владеете Python (Pandas, PySpark) и SQL;
имеете практический опыт построения ETL/ELT-пайплайнов (Airflow, Prefect, Dagster);
понимаете полный цикл подготовки данных для RAG: парсинг, чанкинг, работа с векторными БД (Qdrant, Weaviate) и интеграция с фреймворками (LangChain, LlamaIndex);
имеете опыт работы с облачными сервисами и разными типами БД (PostgreSQL, S3).
Будет плюсом:
участие в ML/GenAI проектах: работа с feature store (Feast), логирование экспериментов (MLflow);
опыт настройки мониторинга пайплайнов и данных (Grafana, Prometheus);
знакомы с практиками MLOps и понимание, как данные живут в жизненном цикле ML-модели.