Команда занимается разработкой NLP моделей и решений на основе LLM для операционных рисков. Мы решаем сложные и нетривиальные задачи по построению AI-агентов и мультиагентных систем.
Примеры задач с использованием LLM и других моделей, которые могут быть на стажировке:
• автоматизированная проверка соответствия двух документов по смыслу (>50 страниц в каждом документе),
• автоматизированная сверка требований к коду (текст на естественном языке) и самого кода (различные языки программирования)
• AI-агент для ответов на вопросы пользователя по сложным внутренним нормативным документам Банка (документы содержат большое количество терминов и перекрестных ссылок)
Некоторые из подходов для решения этих задач, знание которых будет плюсом на собеседовании: RAG (классический RAG, GraphRAG, Agentic RAG), text2sql.
Обязанности
- подготовка данных: разработка и настройка пайплайнов для парсинга различных источников (в том числе внешних) и обработки текстовых данных
- разработка NLP-решений: проектирование, реализация и сопровождение решений для обработки естественного языка, включая задачи классификации текста, извлечения информации, генерации текста и др.
- создание и адаптация моделей: разработка и дообучение моделей на основе современных архитектур (например, BERT, Т5, RoBERTa и др.), выбор подходящих гиперпараметров и оценка эффективности моделей
- участие в исследованиях: активное участие в исследовательской деятельности, изучение новых методик и подходов в области NLP.
Преимуществом будет:
• опыт разработки агентов на langchain/langgraph
• опыт в соревнованиях (к примеру Kaggle Expert+, или успехи на других платформах)
• опыт работы с NLP-технологиями: есть учебные проекты по NLP/хакатоны/стажировки
• знание других языков программирования (например, C++, Java)
Требования
- неоконченное высшее техническое образование с хорошей подготовкой в области математики и алгоритмов
- хорошее знание статистики и алгоритмов машинного обучения
- хорошее знание Python и библиотек для машинного обучения (NumPy, Pandas, Scikit-learn, PyTorch)
- хорошее знание Deep Learning, опыт работы с фреймворками TensorFlow, PyTorch или аналогичными
- знание NLP и опыт работы с базовыми алгоритмами обработки естественного языка и библиотеками, такими как Transformers, spaCy, NLTK, Gensim
- уверенный английский язык для чтения и анализа научных статей и документации
- опыт работы в Linux средах обязателен
- опыт работы Git
- хорошие коммуникационные навыки, способность эффективно взаимодействовать с командой разработчиков, аналитиков и других специалистов
- аналитический склад ума: умение структурировано подходить к решению сложных задач, анализировать результаты экспериментов и делать выводы
- желание учиться и развиваться: готовность осваивать новые технологии и подходы в области NLP и AI
Условия
- оплачиваемая стажировка (3-6 месяцев)
- формат работы - гибрид, 40 часов в неделю
- комфортный современный офис рядом с м. Кутузовская
- корпоративный спортзал и зоны отдыха
- возможность ежедневно взаимодействовать с наставником
- на время стажировки стажёр включается в команду, где делает своё отдельное исследование
- доступ к онлайн обучению в корпоративном университете Сбера.