102810 вакансий +95 сегодня

ML-разработчик (Inference)

350,000 - 650,000 RUB
На 25% больше рынка

Описание роли

В роли ML-разработчика (Inference) вы станете ключевым инженером, отвечающим за оптимизацию и масштабирование процессов инференса больших языковых моделей (LLM). Ваши основные задачи будут включать:
* Оптимизацию throughput и latency при генерации LLM: внедрение speculative decoding, continuous batching и работы с KV-cache.
* Тюнинг фреймворков (PyTorch, TensorRT, vLLM), работа с GPU-кластерами (CUDA, Tensor Cores) и профилирование узких мест.
* Разработку распределённых систем инференса: интеграцию с Kubernetes, сервис-мешами, балансировщиками, автоматическое масштабирование и поддержку multi-node tensor/pipeline parallel.
* Создание и оптимизацию низкоуровневых CUDA/Triton-ядр, профилирование памяти и вычислений, работа с NVLink и RDMA.
* Построение платформенных сервисов: API, SDK и инструментов для развёртывания, обновления и мониторинга моделей, поддержка on-prem и облачных сценариев.

Для участия важно понимание устройства трансформеров (attention, кэширование, последовательная генерация), опыт оптимизации инференса под GPU и навыки разработки на Python и C++ (или Go). Желателен опыт эксплуатации высоконагруженных сервисов под Kubernetes и gRPC.

Уникальность вакансии

* Работа в Yandex Cloud с передовыми технологиями для масштабируемого LLM-инференса.
* Гибридный формат: сочетание офиса в Москве и удалённой работы.
* Доступ к современным GPU-кластерам и инструментам профилирования.
* Возможность влиять на архитектуру распределённых вычислительных систем и развиваться в сфере AI/ML.

О компании

Yandex — ведущая технологическая компания, создающая облачные и AI-решения мирового уровня. В Yandex Cloud вы получите опыт работы над сервисами, обслуживающими миллионы запросов, и влияние на стратегические продукты. Компания ценит экспертизу, инновации и предоставляет сотрудникам возможности для профессионального роста и обучения.

Партнёрское размещение. ERID 2W5zFHoQEpH Партнёрское размещение. ERID 2W5zFJWuthw
Оценка вакансии
6.8 / 10
Вакансия в Yandex Cloud для опытных ML-разработчиков Inference предлагает работу с передовыми LLM-инференс системами, CUDA и PyTorch. Гибридный формат в Москве и конкурентная зарплата до 650 000 RUB делают её привлекательной. Кандидаты получат возможность масштабировать высоконагруженные сервисы и развиваться в крупной технологической компании.
Опубликовано:

Будьте в курсе новых вакансий

Подпишитесь на наш Telegram-канал

Мы используем cookie. Нажимая «ОК», вы принимаете Политику конфиденциальности и cookie.