Senior Data Scientist

Откликнуться
Формат работы
полная занятость, гибридный формат работы
Локация
РФ
Опыт
5 лет

Основное в работе

  • Компания Bercut, отечественный разработчик корпоративного ПО, приглашает ведущего Data Scientist для работы над интеграционной платформой ESB Bercut. Проект включает проектирование и поддержку инфраструктуры для маршрутов на Apache Camel, оптимизацию потоков данных через Kafka, настройку современных инструментов контейнеризации и обеспечение безопасности. У нас вы получите возможность влиять на инфраструктурные решения, работать в высокопрофессиональной команде и оптимизировать процессы доставки продукта.

Также предстоит

  • Создавать начальный датасет промпт → yaml для маршрутов Camel (вручную + синтез);
  • Разрабатывать пайплайн аннотации логов (аномалия, событие, причина);
  • Проверять точность генерации OpenAPI и разрабатывать критерии оценки качества;
  • Собирать embedding-корпус по документации ESB и Camel;
  • Сравнивать Pinecone vs Qdrant на реальном retrieval latency и relevance;
  • Проектировать логику агентов;
  • Определять цепочки взаимодействия LLM (prompt flows, tools, context);
  • Работать с LLM и RAG;
  • Участвовать в fine-tuning и выборе моделей;
  • Передавать знания в dev-команду и ML-инфраструктуру.

Что для нас важно

  • Python, Pandas, json, PyYAML, Jupyter;
  • Обработка логов, YAML, XML, Camel DSL, markdown, .http файлы;
  • ML / LLMPrompt Engineering, RAG, LangChain, transformers;
  • OpenAI embeddings, SentenceTransformers, Pinecone, Qdrant;
  • Metrics design (BLEU, cosine, factual score, hallucination);
  • Синтез обучающих данных, jsonl, prompt-response sets;
  • Manual + semi-auto markup workflows;
  • Precision@k, F1, HitRate, Retrieval latency;
  • Seaborn / matplotlib, графы последовательностей;
  • Git, Issues, PR review, Markdown.

Дополнительно оценим

  • Опыт с Apache Camel (чтение DSL, понимание маршрутов);
  • Опыт участия в обучении моделей (LoRA, SFT);
  • Знание LLM evaluation фреймворков (TruLens, DeepEval, Ragas);
  • Навыки генерации synthetic datasets и/или использования OpenAI functions.

Связаться с нами

Загрузка