Москва, Серебряническая набережная, 29
Метро: КурскаяХотите стать частью увлекательного процесса цифровой трансформации?
Блок IT в СОГАЗ активно развивается и меняет подход к созданию продуктов. Мы создаем новые сервисы и решения, которые делают нашу работу более технологичной и эффективной.
Обязанности:
Разработка и развитие пайплайна автоматической обработки документов: от PDF-сканов до структурированных данных в XML;
Определение типа документа и извлечение нужных полей из печатного и рукописного текста;
Организация процесса разметки данных (Label Studio);
Подбор и интеграция open-source OCR-движков с учётом баланса скорость/качество под разные типы документов;
Обучение и дообучение ML-моделей под специфику документооборота компании на размеченных данных;
Обеспечение требуемой скорости и качества обработки для production-нагрузки;
Построение системы валидации извлечённых данных и мониторинга качества работы моделей;
Быстрое добавление новых типов документов в работающую систему без переделки всего пайплайна.
Требования:
Технологический стек: Python, PyTorch, HuggingFace Transformers, OpenCV, BERT / LiLT / LayoutLM, DiT и vision-трансформеры, PaddleOCR, VLM-OCR (PaddleOCR-VL, dots.ocr, Qwen-VL), PEFT (LoRA, QLoRA), vLLM, Triton Inference Server, ONNX, Docker, Label Studio.
Условия:ДМС в лучших клиниках города, страхование жизни и страхование от несчастных случаев и болезней + ДМС родственников с 75% скидкой;