провинция Бискайя, Басаури, Бильбао
Локация: Бильбао, Испания
Формат: Офисный
Домены: AI, Computer Vision, NLP, Fintech
Команда: PhD, университетские преподаватели, победители олимпиад
Artificial Seed разрабатывает передовые решения на стыке искусственного интеллекта и прикладных технологий, делая фокус на практических задачах, а не только на теоретических исследованиях. Мы работаем в направлениях AI, компьютерного зрения, NLP и финтеха, создавая и внедряя системы, которые решают сложные реальные бизнес-задачи.
Наша международная команда насчитывает более 100 специалистов и работает в среде, где ценятся глубокая экспертиза, инновации и постоянное развитие. Участники команды получают возможность решать нетривиальные задачи, сотрудничать с сильными экспертами и расти в быстро развивающейся технологической индустрии.
Мы ищем:
Senior ML Engineer, который уже строил LLM-агентов и RAG-системы в проде и умеет не только “собрать пайплайн”, но и двигать качество через гипотезы и эксперименты.
Нам нужен человек с мышлением research-minded инженера: быстро проверять идеи, превращать их в работающий прототип, измерять результат, а затем доводить до стабильного production-решения. Важна самостоятельность и ответственность за итог: “нашли рычаг → доказали метриками → внедрили → мониторим”. На практике это значит, что тебе нужно будет делать вещи типа:
Как построить оценку качества работы агента: какие метрики нужны (task success, tool success, latency/cost, hallucination rate), как собрать датасет, как делать offline/online eval, как организовать регрессии и алерты.
Будет ли кодовый агент работать лучше, чем текущий агент на наборе тулов: сравнить подходы (tool-based vs code-execution / codegen), определить критерии “лучше”, сделать A/B или controlled rollout, посчитать качество/стоимость/риски.
Как повысить качество RAG на 30%: улучшить retrieval (чанкинг, query rewriting, hybrid search), reranking, контекст-композицию, dedup/anti-leak, grounding, а затем подтвердить прирост на бенчмарке и в прод-метриках.
Нам важно, что:
Ты не боишься “непонятных задач”, где нет готового решения и нужно самому сформулировать: что измеряем, как проверяем, что считаем успехом.
Ты умеешь балансировать скорость и качество: быстро экспериментировать, но при этом держать в голове надёжность, наблюдаемость и воспроизводимость.
Ты умеешь писать (и вайбкодить) код, от которого продуктовые разработчики не хватаются за наган.
Требования:
Общий опыт разработки: от 5 лет;
Опыт в продуктах вокруг LLM / агентов: от 2 лет;
Построил(а) хотя бы:
Одну RAG/поисковую систему с пайплайнами retrieval → rerank → generation;
Одного агента (tool-use / multi-step / workflows);
У этих систем есть реальные пользователи;
Асинхронный Python: asyncio, threads;
Промптинг для LLM: system prompt / user prompt / few-shot, шаблоны, контекст, инструкции;
Как устроены современные LLM: трансформеры, обучение, инференс, сервинг;
Свежие модели и их отличия (качество / скорость / контекст / стоимость / мультимодальность и т.д.);
MCP (Model Context Protocol);
Методология ML: train/val/test, метрики, базовые принципы оценки;
Контроль качества ответов агентов:
Мониторинг, метрики, guardrails, регрессии, алерты, человеческая разметка/feedback loops;
Фреймворки/подходы для агентов: fastmcp, mcp-use, OpenAI Agents SDK и аналоги;
Токенизация:
Как работает токенизация;
Какие токенайзеры актуальны, влияние на контекст / стоимость/ лимиты;
RAG-пайплайны:
Компоненты (ингест / чанкинг / эмбеддинги/ векторное хранилище / retrieval / rerank /композиция контекста / генерация);
Типовые проблемы и решения (галлюцинации, бедный ретривал, деградации, cold start, дрейф данных, дубликаты, latency);
Cursor и аналоги (Claude Code, Codex, Aider и т.п.): как пользоваться кодовыми агентами в разработке.
Будет плюсом:
Опыт организации API: REST / gRPC / GraphQL;
Понимание протокола HTTP;
Работа с реляционными СУБД: PostgreSQL и аналогами;
Знание распределённых и векторных хранилищ: Weaviate, Cassandra и др;
Опыт с Python API-фреймворками: FastAPI, Flask и аналогами;
Работа с системами фоновых задач: Celery, Taskiq, Airflow и др;
Навыки контейнеризации: Docker, Kubernetes или Nomad;
Что предлагаем:
Москва
до 300000 RUR
BI.ZONE
Москва
до 300000 RUR