Senior LLM Infrastructure & Reliability Engineer по Python + Kubernetes
Что за роль
Senior LLM Infrastructure & Reliability Engineer отвечает за создание и эксплуатацию высокопроизводительной платформы для локального вывода LLM с использованием кластеров на базе GPU. Это позиция, ориентированная на инфраструктуру систем, сосредоточенная на работоспособности аппаратного и программного обеспечения AI, а не на обучении моделей или исследовательской деятельности.
Что предстоит делать:
- Управление сервисами: запуск и масштабирование LLM-сервисов с использованием Ray/Ray Serve, Docker и Linux.
- Управление выводом: развертывание моделей через vLLM/Hugging Face и предоставление их через высокопроизводительные API, совместимые с OpenAI.
- Оптимизация производительности: максимизация эффективности аппаратного обеспечения через оптимизацию использования GPU, пакетирования запросов, задержки и пропускной способности.
- Надежность: поддержание стабильности системы через мониторинг, надежное управление сбоями и автоматическое восстановление.
- Управление жизненным циклом: полное управление циклом развертывания моделей: версионирование, обновления, бенчмаркинг и откаты.
Что важно знать
Роль требует системного подхода и глубоких знаний в области управления инфраструктурой AI. Важно иметь опыт работы с распределенными системами и облачными технологиями, а также навыки в области автоматизации тестирования. Это отличная возможность для тех, кто хочет работать в передовой области AI и участвовать в разработке высоконагруженных систем, обеспечивающих стабильность и масштабируемость локальных AI-решений.
Подписка TalentMove
Больше,
чем вакансии
→ TalentScanAI
Узнайте стоимость вашего опыта на рынке
→ Закрытое сообщество
Нетворкинг и инсайды рынка труда
→ Ранний доступ к beta
Попробуйте новые инструменты поиска