Аналитик чековых данных

SAUDATA

Аналитик чековых данных

Астана, улица Алматы, 7

Описание вакансии

Мы ищем Аналитика данных в команду Data. Ваша основная задача — вести подготовку товарных категорий по чековым данным: выделение категорий через регулярные выражения (Regex), чистка, контроль качества, сбор витрин и базовой статистики.

Важно: Это аналитическая роль с фокусом на качество данных (Data Quality) и работу с текстом. Вакансия не подойдет тем, кто ищет развитие в Data Engineering, инфраструктуре, DWH или ETL/ELT процессах.

Задачи

  • Выделять товарные категории из массива чеков по неструктурированным названиям товаров через регулярные выражения на казахском, русском и английском языках.

  • Проводить итеративную чистку данных, работать со словарями, снижать долю мусора и не терять важные строки (разбор пограничных кейсов).

  • Писать SQL-запросы в Doris, собирать итоговые таблицы в хранилище, готовить SQL-скрипты и Jupyter-ноутбуки для проверки качества и расчёта метрик.

  • Собирать базовые отчёты по категории: динамика, доли, распределения, контрольные срезы, краткие выводы.

  • При необходимости упаковывать расчёты в Airflow DAG или поддерживать существующие DAG.

Ожидаемый результат через 2 месяца

Вы самостоятельно собираете новую категорию за 2 рабочих дня: правило выделения, контроль качества, итоговая таблица в хранилище и ноутбук с проверками.

Требования (Must Have)

  • Уверенный SQL и опыт работы с большими данными. Умение писать сложные запросы и проверки, любовь к контролю качества (QA данных).

  • Отличное владение регулярными выражениями. Практический опыт построения правил выделения сущностей из текста: категории, бренды, словари, нормализация.

  • Python для анализа данных: обработка таблиц, проверки качества, работа с текстом.

  • Готовность к монотонной, скрупулезной работе и повторяющимся задачам. Умение доводить процесс до стабильного состояния без потери качества.

  • Строгое соблюдение конфиденциальности: готовность работать с чувствительными данными локально, без выноса во внешние контуры и без использования внешних сервисов (включая ChatGPT и другие ИИ-инструменты).

  • Самостоятельность: умение разбирать задачу, предлагать план и фиксировать критерии качества.

  • Языки: Русский — свободно. Казахский и английский — на уровне уверенного чтения и понимания типовых слов в товарных названиях.

Требования (Nice to Have)

  • Опыт с чековыми данными, ритейлом, товарными категориями, корзинами, ценами, промо.

  • Опыт с Airflow. Умение писать DAG, разбираться с логами.

  • Опыт работы с Doris или близкими по смыслу БД.

  • Опыт работы с Power BI.

  • Привычка документировать правила выделения категорий и поддерживать их в виде понятного справочника.

Что точно НЕ подойдёт (Стоп-факторы)

  • Ваша главная цель — позиция Data Engineer, и вам интереснее инфраструктура, пайплайны и DWH, чем аналитика и метрики.

  • Вам критически важно постоянное разнообразие задач, и вы быстро выгораете от рутины, словарей и скрупулёзной работы с текстом.

  • Сложно принимать правки, менять решение после проверки на данных или разбирать ошибки.

  • Нет примеров самостоятельной работы с SQL и чисткой текстовых полей.

  • Часто теряются сроки или задача уходит в бесконечную шлифовку.

Формат и процесс

Работа удалённая, стандартный рабочий день.

Как откликнуться

В этой роли критически важна внимательность к деталям. Чтобы мы могли быстро рассмотреть вашу кандидатуру, пожалуйста, вместо стандартного сопроводительного письма ответьте на 5 вопросов:

Какой диапазон зарплаты для вас приемлем и какой формат работы рассматриваете?

Сколько процентов рабочего времени вы готовы уделять рутинной работе с правилами, словарями и проверками качества?

Приведите пример вашей монотонной задачи, которая длилась 2–4 недели: в чем она заключалась и как вы поддерживали высокое качество результатов?

Куда вы хотите расти профессионально: в аналитику качества данных (Data Quality / Analytics) или в инженерию и инфраструктуру (Data Engineering)?

Как вы относитесь к запрету на использование внешних сервисов (включая ИИ-чаты) при обработке данных из-за строгой конфиденциальности? Был ли у вас опыт работы в таких закрытых контурах?

Навыки
  • SQL
  • Python
  • Анализ данных
  • Apache Airflow
  • Jupyter Notebook
  • Big Data
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию