Стажер по разработке систем машинного обучения и обработки естественного языка

СЕКАЙ

Стажер по разработке систем машинного обучения и обработки естественного языка

Санкт-Петербург, проспект Медиков, 3

Метро: Выборгская

Описание вакансии

Отклики без сопроводительного письма не рассматриваются.
Укажите свой опыт (вкл. учебный) работы с текстовыми датасетами и задачами их подготовки для обучения моделей машинного обучения (ML). Другую информацию в сопроводительном письме указывать не нужно.

Стажировка в гибридном формате. С обязательным посещением офиса в Санкт-Петербурге.

О проекте

Мы разрабатываем комплексную платформу для работы с крупными языковыми моделями (LLM) и их интеграции в производственные системы. Проект включает:

- Микросервисную архитектуру для обработки и анализа структурированных и неструктурированных данных с использованием LLM
- Системы обогащения контекста на основе RAG (Retrieval-Augmented Generation) с векторными базами данных
- Интеграцию внешних инструментов и баз знаний через стандартизированные протоколы (Model Context Protocol)
- Механизмы защиты и валидации работы LLM (guardrails, защита от jailbreak-атак)
- Многоязычную поддержку и обработку специализированных доменных данных

Навыки программирования и автоматизации:

- Умение писать и использовать скрипты для автоматизации сбора, обработки и очистки данных.
- Опыт программирования на Python (обязательно), а также знание библиотек для обработки данных, таких как pandas, NumPy, BeautifulSoup, Scrapy и др.
- Опыт работы с API для сбора данных из различных источников.
- Знание и опыт работы с системами управления версиями (Git) и основами DevOps.
- Опыт работы с веб-фреймворками (FastAPI, Flask) для создания REST API сервисов.
- Понимание асинхронного программирования (asyncio, httpx) для работы с микросервисной архитектурой.
- Знание инструментов контейнеризации (Docker) и оркестрации (Docker Compose).
- Базовые знания TypeScript/JavaScript и Node.js для работы с компонентами платформы.
- Понимание работы с WebSocket и real-time коммуникацией (Socket.io) будет преимуществом.

Понимание принципов работы LLM:

- Понимание основ и принципов работы крупных языковых моделей (LLM), включая архитектуры трансформеров (Transformer), предобучение моделей и процесс дообучения на специфических задачах.
- Опыт работы с фреймворками и библиотеками для машинного обучения, такими как Hugging Face Transformers, TensorFlow или PyTorch.
- Понимание основ вычислительной лингвистики и работы с естественным языком (NLP), а также умение адаптировать модели к конкретным задачам (дообучение, тонкая настройка).
- Опыт работы с LLM API (OpenAI, GigaChat, OpenRouter) и понимание форматов запросов/ответов (JSON Schema, function calling).
- Понимание принципов работы LLM-агентов (ReAct, tool calling) для автономного выполнения задач.
- Понимание принципов RAG (Retrieval-Augmented Generation) и работы с векторными базами данных для обогащения контекста LLM.
- Знание фреймворков для RAG (Haystack, LangChain) и векторных БД (Qdrant, Pinecone, Weaviate) будет преимуществом.
- Понимание методов защиты LLM от jailbreak-атак и валидации входных/выходных данных моделей.

Навыки работы с данными:

- Умение собирать и классифицировать большие объемы текстовых данных из различных источников (социальные сети, форумы, блоги и др.).
- Навыки предварительной обработки текстовых данных: нормализация, токенизация, удаление лишних символов и помех.
- Способность анализировать данные и определять, подходят ли они для обучения LLM (оценка качества, репрезентативность, релевантность).
- Опыт работы со структурированными данными: парсинг и извлечение паттернов из различных форматов данных.
- Опыт работы с векторными представлениями текста (embeddings) для семантического поиска и RAG.
- Понимание принципов индексирования и поиска в базах знаний (knowledge bases) для обогащения контекста LLM.

Навыки работы со структурированными данными и специализированными доменами:

- Понимание принципов обработки и анализа структурированных данных различных форматов.
- Базовые навыки работы с графовыми структурами данных и их анализом.
- Понимание принципов работы Model Context Protocol (MCP) для интеграции внешних инструментов с LLM.
- Знание специализированных баз знаний и стандартов в различных доменах.

Аналитические способности и внимание к деталям:

- Умение критически анализировать собранные данные и формулировать выводы на основе их анализа.
- Высокое внимание к качеству данных, включая способность выявлять ошибки, аномалии и несоответствия в текстовых датасетах.
- Умение анализировать результаты работы LLM-агентов и оценивать качество их выходных данных.
- Способность к отладке сложных микросервисных систем и диагностике проблем в распределенных системах.

Преимуществом будет:

Инфраструктура и DevOps:
- Опыт (вкл. учебный) работы с параллельными вычислениями и распределёнными системами для обработки больших объемов данных.
- Опыт работы с оркестрацией контейнеров (Kubernetes).
- Понимание принципов работы CI/CD и интеграции ML-систем в процессы разработки.

Машинное обучение и NLP:
- Опыт работы с векторными базами данных и семантическим поиском (Qdrant, Pinecone, Weaviate, Milvus).
- Знание фреймворков для RAG (Haystack, LangChain, LlamaIndex) и понимание pipeline для обработки документов.
- Понимание методов оценки качества embeddings и метрик для RAG систем (retrieval accuracy, relevance scoring).

Программирование и инструменты:
- Знание дополнительных языков программирования (JS, TS, Go) и их экосистем.
- Опыт работы с графовыми структурами данных и понимание различных форматов представления информации.
- Знание протоколов интеграции инструментов (MCP, OpenAI Function Calling) для расширения возможностей LLM.

Безопасность и анализ кода:
- Понимание принципов статического анализа кода и работы с инструментами анализа безопасности (Bandit, Semgrep, CodeQL).
- Опыт работы с тестовыми фреймворками (pytest, unittest, jest) и понимание принципов написания тестов.
- Понимание концепций fuzzing-тестирования и property-based testing (Hypothesis, fast-check).
- Опыт работы с инструментами анализа графов кода (Joern, CPG).
- Понимание типов уязвимостей в коде и способов их обнаружения.
- Базовое понимание инструментов кибербезопасности (nmap, nuclei, sqlmap, httpx, katana и др.) и их применения для тестирования безопасности.
- Знание стандартов и баз знаний по безопасности (CWE, MITRE ATT&CK, OWASP Top 10).

Дополнительно будет преимуществом:
- Опыт работы со специализированными базами знаний в различных доменах и их структурированием для использования в LLM.
- Понимание базовых принципов этики при сборе и использовании данных, включая вопросы конфиденциальности и лицензирования.

Soft skills:

- Способность работать в команде и сотрудничать с другими специалистами (разработчиками, лингвистами, исследователями).
- Хорошие коммуникативные навыки для объяснения технических аспектов работы другим участникам проекта.
- Способность к самостоятельному обучению и желанию развиваться в области разработки и обучения языковых моделей.
- Умение работать с технической документацией и быстро осваивать новые инструменты и библиотеки.

Условия стажировки

- на время прохождения стажировки закрепляется куратор, всегда готовый помочь
- обеспечивается всем необходимым для успешного прохождения стажировки
- возможен гибридный формат работы (часть в офисе, часть удаленно)
- готовы предоставить все необходимые документы для ВУЗа для зачёта практики, в т. ч. рекомендательное письмо
- оплата по результатам стажировки

Навыки
  • Python
  • Git
  • Linux
  • Работа с большим объемом информации
  • JavaScript
  • Работа с базами данных
  • Docker
  • Big Data
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию