Предлагаем:
официальное оформление с первого рабочего дня;
заработная плата 180 000 рублей на руки;
график работы 5/2 с 9 до 18;
офис м. Нагатинская/м. Верхние Котлы;
компенсация питания;
полный социальный пакет.
Чем предстоит заниматься:
разработка, тестирование и поддержка ETL-пайплайнов для сбора, очистки, дедупликации и фильтрации обучающих корпусов;
парсинг разнородных документов в структурированные форматы, пригодные для обучения языковых моделей;
глубокий анализ больших объемов текстовых и структурированных данных, написание и оптимизация скриптов на Python и SQL;
полный цикл поддержки данных: от исследования источников и прототипирования парсеров до production-эксплуатации и мониторинга качества;
исследование и внедрение новых подходов в обработке данных для LLM: улучшение фильтрации шумов, оптимизация словарей, автоматизация evaluation-пайплайнов.
От Вас ожидаем:
глубокое понимание архитектуры данных, принципов построения ETL/ELT-пайплайнов и жизненного цикла данных для обучения AI-моделей;
свободное владение Python и основными библиотеками для обработки данных: Инженерия данных: Polars, Pandas, PyArrow, Dask/Spark Веб-скрапинг и парсинг: Scrapy, Playwright, BeautifulSoup, инструменты разбора документов * NLP-экосистема: Hugging Face Datasets, Tokenizers, NLTK, spaCy;
понимание принципов работы токенизаторов и архитектур LLM: опыт разработки или кастомизации токенизаторов, оптимизация словаря под русский язык, работа с subword-алгоритмами (BPE, Unigram, SentencePiece);
знание открытых и корпоративных источников данных, умение работать с лицензиями, авторскими правами и compliance при сборе обучающих корпусов;
наличие успешного опыта внедрения data-пайплайнов «под ключ» для NLP/LLM-проектов в production-среде.
Группа компаний «Group4Media», Управляющая компания
Москва
до 200000 RUR