Астана, улица Алматы, 7
Мы ищем Аналитика данных в команду Data. Ваша основная задача — вести подготовку товарных категорий по чековым данным: выделение категорий через регулярные выражения (Regex), чистка, контроль качества, сбор витрин и базовой статистики.
Важно: Это аналитическая роль с фокусом на качество данных (Data Quality) и работу с текстом. Вакансия не подойдет тем, кто ищет развитие в Data Engineering, инфраструктуре, DWH или ETL/ELT процессах.
Задачи
Выделять товарные категории из массива чеков по неструктурированным названиям товаров через регулярные выражения на казахском, русском и английском языках.
Проводить итеративную чистку данных, работать со словарями, снижать долю мусора и не терять важные строки (разбор пограничных кейсов).
Писать SQL-запросы в Doris, собирать итоговые таблицы в хранилище, готовить SQL-скрипты и Jupyter-ноутбуки для проверки качества и расчёта метрик.
Собирать базовые отчёты по категории: динамика, доли, распределения, контрольные срезы, краткие выводы.
При необходимости упаковывать расчёты в Airflow DAG или поддерживать существующие DAG.
Ожидаемый результат через 2 месяца
Вы самостоятельно собираете новую категорию за 2 рабочих дня: правило выделения, контроль качества, итоговая таблица в хранилище и ноутбук с проверками.
Требования (Must Have)
Уверенный SQL и опыт работы с большими данными. Умение писать сложные запросы и проверки, любовь к контролю качества (QA данных).
Отличное владение регулярными выражениями. Практический опыт построения правил выделения сущностей из текста: категории, бренды, словари, нормализация.
Python для анализа данных: обработка таблиц, проверки качества, работа с текстом.
Готовность к монотонной, скрупулезной работе и повторяющимся задачам. Умение доводить процесс до стабильного состояния без потери качества.
Строгое соблюдение конфиденциальности: готовность работать с чувствительными данными локально, без выноса во внешние контуры и без использования внешних сервисов (включая ChatGPT и другие ИИ-инструменты).
Самостоятельность: умение разбирать задачу, предлагать план и фиксировать критерии качества.
Языки: Русский — свободно. Казахский и английский — на уровне уверенного чтения и понимания типовых слов в товарных названиях.
Требования (Nice to Have)
Опыт с чековыми данными, ритейлом, товарными категориями, корзинами, ценами, промо.
Опыт с Airflow. Умение писать DAG, разбираться с логами.
Опыт работы с Doris или близкими по смыслу БД.
Опыт работы с Power BI.
Привычка документировать правила выделения категорий и поддерживать их в виде понятного справочника.
Что точно НЕ подойдёт (Стоп-факторы)
Ваша главная цель — позиция Data Engineer, и вам интереснее инфраструктура, пайплайны и DWH, чем аналитика и метрики.
Вам критически важно постоянное разнообразие задач, и вы быстро выгораете от рутины, словарей и скрупулёзной работы с текстом.
Сложно принимать правки, менять решение после проверки на данных или разбирать ошибки.
Нет примеров самостоятельной работы с SQL и чисткой текстовых полей.
Часто теряются сроки или задача уходит в бесконечную шлифовку.
Формат и процесс
Работа удалённая, стандартный рабочий день.
Как откликнуться
В этой роли критически важна внимательность к деталям. Чтобы мы могли быстро рассмотреть вашу кандидатуру, пожалуйста, вместо стандартного сопроводительного письма ответьте на 5 вопросов:
Какой диапазон зарплаты для вас приемлем и какой формат работы рассматриваете?
Сколько процентов рабочего времени вы готовы уделять рутинной работе с правилами, словарями и проверками качества?
Приведите пример вашей монотонной задачи, которая длилась 2–4 недели: в чем она заключалась и как вы поддерживали высокое качество результатов?
Куда вы хотите расти профессионально: в аналитику качества данных (Data Quality / Analytics) или в инженерию и инфраструктуру (Data Engineering)?
Как вы относитесь к запрету на использование внешних сервисов (включая ИИ-чаты) при обработке данных из-за строгой конфиденциальности? Был ли у вас опыт работы в таких закрытых контурах?