Data Engineer

Описание вакансии

Предлагаем:

  • официальное оформление с первого рабочего дня;

  • заработная плата 180 000 рублей на руки;

  • график работы 5/2 с 9 до 18;

  • офис м. Нагатинская/м. Верхние Котлы;

  • компенсация питания;

  • полный социальный пакет.

Чем предстоит заниматься:

  • разработка, тестирование и поддержка ETL-пайплайнов для сбора, очистки, дедупликации и фильтрации обучающих корпусов;

  • парсинг разнородных документов в структурированные форматы, пригодные для обучения языковых моделей;

  • глубокий анализ больших объемов текстовых и структурированных данных, написание и оптимизация скриптов на Python и SQL;

  • полный цикл поддержки данных: от исследования источников и прототипирования парсеров до production-эксплуатации и мониторинга качества;

  • исследование и внедрение новых подходов в обработке данных для LLM: улучшение фильтрации шумов, оптимизация словарей, автоматизация evaluation-пайплайнов.

От Вас ожидаем:

  • глубокое понимание архитектуры данных, принципов построения ETL/ELT-пайплайнов и жизненного цикла данных для обучения AI-моделей;

  • свободное владение Python и основными библиотеками для обработки данных: Инженерия данных: Polars, Pandas, PyArrow, Dask/Spark Веб-скрапинг и парсинг: Scrapy, Playwright, BeautifulSoup, инструменты разбора документов * NLP-экосистема: Hugging Face Datasets, Tokenizers, NLTK, spaCy;

  • понимание принципов работы токенизаторов и архитектур LLM: опыт разработки или кастомизации токенизаторов, оптимизация словаря под русский язык, работа с subword-алгоритмами (BPE, Unigram, SentencePiece);

  • знание открытых и корпоративных источников данных, умение работать с лицензиями, авторскими правами и compliance при сборе обучающих корпусов;

  • наличие успешного опыта внедрения data-пайплайнов «под ключ» для NLP/LLM-проектов в production-среде.

Посмотреть контакты работодателя

Похожие вакансии

Медиа Эффект
  • Москва

  • от 170000 RUR

Рекомендуем
Медиа Эффект

ML Engineer

Медиа Эффект

  • Москва

  • от 210000 RUR

Рекомендуем
OSMI IT
  • Москва

  • до 250000 RUR

Рекомендуем
Альбакор ИИР
  • Москва

  • до 200000 RUR

ДАЛКОС
  • Москва

  • до 200000 RUR

НТЦ Вулкан

ML-инженер

НТЦ Вулкан

  • Москва

  • до 200000 RUR

Автономные Технологии

Data Engineer

Автономные Технологии

  • Москва

  • до 200000 RUR

Инженер-электронщик

ПЕРСПЕКТИВА

  • Москва

  • от 150000 RUR

Ozon
  • Москва

  • от 150000 RUR

Астор

ML Engineer

Астор

  • Москва

  • до 280000 RUR

Мельчакова Виктория Вячеславовна

Инженер-проектировщик слаботочных систем

Мельчакова Виктория Вячеславовна

  • Москва

  • от 150000 RUR

СБЕР

Data Engineer

СБЕР

  • Москва

  • от 150000 RUR

Тера Интегро

Data engineer (оптимизация)

Тера Интегро

  • Москва

  • от 150000 RUR

СБЕР
  • Москва

  • до 200000 RUR

Группа компаний «Group4Media», Управляющая компания

Junior Data Engineer (Python/SQL/ClickHouse)

Группа компаний «Group4Media», Управляющая компания

  • Москва

  • до 200000 RUR

ProfiStaff

ML Engineer

ProfiStaff

  • Москва

  • до 350000 RUR

СБЕР
  • Москва

  • до 350000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию