Технический менеджер проектов YTsaurus (разработка ML Platform)
Яндекс
Полная занятость
Опыт: более 6 лет
Описание:
Яндекс — одна из немногих компаний в мире, оперирующих экcабайтами данных, которые нужно уметь эффективно хранить, обрабатывать и передавать между различными системами. Для решения этих задач мы создали и развиваем распределённую платформу хранения и обработки данных YTsaurus. YTsaurus в том числе управляет суперкомпьютерами Яндекса, на которых ML-инженеры решают задачи машинного обучения. Недавно мы начали новый проект, чтобы упростить жизнь коллег. Пользователями нового сервиса станет большинство ML-разработчиков Яндекса — сотни команд, которые обучают модели для Алисы, Нейро, Шедеврума. Ключевые компоненты нового сервиса: Managed DevCluster для удалённой разработки и тестовых запусков задач на GPU Инструмент простого с точки зрения UX и эффективного запуска процессов обучения на гигантском кластере YTsaurus с тысячами GPU Оркестратор, который позволит описывать графы подготовки данных на Python и SQL Решение для трекинга ML-экспериментов (по смыслу похожее на Weights & Biases) MLOps-система для хранения жизненного цикла моделей и управления им Мы ищем человека, который поможет нам выстроить процессы разработки и наладить взаимодействие между ML-инженерами и инфраструктурой. Какие задачи вас ждут Взаимодействие с пользователямиВам предстоит много общаться с внутренними и внешними пользователями, участвовать в формировании лучших практик применения ML-инфраструктуры (например, следить за эффективным использованием ресурсов GPU). Кроме того, предстоит собирать и анализировать потребности ML-инженеров и доносить предложения об улучшениях по всему стеку. Технические вызовыВам предстоит разобраться в том, как устроен процесс разработки ML-моделей в Яндексе, и вести внутренние инфраструктурные проекты, а также участвовать в интеграционных проектах вместе с несколькими командами разработки, эксплуатации и тестирования. Выстраивание рабочих процессовВам предстоит сотрудничать с разработчиками других инфраструктурных сервисов, анализировать процессы, находить проблемные места, предлагать и внедрять улучшения. Кроме того, необходимо управлять процессом разработки и отвечать за его соответствие планам и требованиям. Мы ждем, что вы Получили высшее техническое или математическое образование Последний год работали в аналогичной должности Управляли проектами и продуктами Работали с командой разработчиков, найдёте с ними общий язык Непосредственно разрабатывали программное обеспечение Составляли FAQ и пользовательскую документацию Способны управлять обсуждениями, фиксировать результаты, расставлять приоритеты и решать задачи в срок Коммуникабельны, точно и понятно говорите и пишете Будет плюсом, если вы Знакомы с инфраструктурными системами (Docker, Kubernetes, Ray, Slurm) Участвовали в создании и внедрении инфраструктурных решений в больших компаниях Пишете на Python или любом другом языке программирования