В YADRO СДЕЛАЛИ СВОЮ MLOPS-ПЛАТФОРМУ

В Yadro сделали свою MLOps-платформу
Дата публикации: 29.08.2025

Как и зачем в Yadro сделали свою MLOps-платформу, в корпоративном блоге компании на «Хабре» рассказал Вадим Извеков, руководитель группы сопровождения платформы машинного обучения Yadro.

В компании есть много проектов, связанных с AI. Всем им нужны ресурсы для работы с моделями на GPU. «Желаем, чтобы только у нас был доступ к оборудованию», - это лишь одно из требований инженеров из AI-дивизиона, а еще нужно оптимизировать использование GPU-ресурсов, вести их учет и живо готовить оборудование к передаче другой команде, говорит Извеков.

Поэтому первоначальная задача MLOps-платформы - оптимизация использования железа между различными командами и задачами, следующая задача - учет. Наконец, третья задача для MLOps-платформы - обслуживание. 

Осознав масштабы проблемы, в компании начали изучать доступные решения. Итого е победил вариант Kubernetes с дополнительными компонентами. «Для Data Science он подойдет относительно, потому что в Kubernetes нельзя сделать полностью изолированное окружение. Зато мы контролируем состав платформы, из этого видно, дорабатывать и менять компоненты проще. В целом у Kubernetes крепкая поддержка общества и много возможностей для расширения функционала», - пояснил Вадим Извеков.

«Для первичной настройки виртуальных и физических серверов мы выбрали Ansible, а управления Kubernetes решили взять Kubespray. Его не просто поддерживать, но он позволяет живо подымать кластер, добавлять и устранять ноды, менять настройки, ставить лейблы и taint’ы, а также управлять комплектом встроенных компонентов Kubernetes - Ingress, MetalLB, Argo CD и так далее. Для автоматизации Ansible внедрили AWX, что открыло дорогу к GitOps по отношению управления Kubernetes», - добавил Вадим Извеков.

Хранилище - второй по важности компонент платформы. Оно может статься скорым, надежным, с понятным интерфейсом доступа и высокой пропускной способностью. Первым типом хранилища в Yadro выбрали Tatlin.Object для работы с данными по протоколу S3. Производительность Tatlin.Object позволяет держать там модели и крупные датасеты и работать с ними напрямую - для обучения и для хранения результатов тестирования. Второй тип хранилища - Tatlin.Flex. 

«Мы оптимизировали использования ресурсов, мы наладили учет ресурсов и выполняемых на GPU задач, улучшили процессы обслуживания серверов: теперь запросы касаются платформы в целом», - подытожил Вадим Извеков.

Полную версию читайте здесь.

Фото: Freepik

Рекомендуем:

Комментарии
Для того, чтобы добавить комментарий необходимо
войти на сайт
Пока материал никто не комментировал.
Новости
В России состоялась первая поездка с оплатой по биометрии в наземном транспорте
«Сбер» в партнёрстве с компаниями «Комфортабельный маршрут» и «Ресурсы Партнёров Рязань» начали тестировать технологию оплаты проезда по биометрии в наземном городском пассажирском транспорте. Первые троллейбусы, оснащённые биотерминалами «Сбера», вышли на маршрут 16А в Рязани. Каждый день они перевозят 1500 пассажиров.
Дата публикации: 03.09.2025
«Билайн» лидирует по качеству мобильной связи в Москве
По конечным итогам исследования компании DMTEL, Билайн занимает первое место в общем рейтинге качества мобильной связи в Москве, демонстрируя лучшие результаты по голосовой связи, передаче данных и покрытию.По конечным результатам драйв-тестов мобильный интернет доступен клиентам «Билайна» на целых всем маршруте измерения: продолжительность времени использования технологии LTE составила 99,96%.
Дата публикации: 03.09.2025
1234...
Статьи
МегаФон стал партнёром финансовой платформы Банки.ру
1 июня 2023 МегаФон и финансовая платформа Банки.ру (АО «Цифровые технологии») запускают партнёрство. Первый совместный проект позволит предоставить клиентам доступ к финансовым предложениям любого российского банка?участника платформы, независимо от наличия его отделения поблизости.
Автор: prteammf
Дата публикации: 30.07.2023
«МегаФон Облако» поможет учебным заведениям совершенствовать образовательный процесс
14 июня 2023 МегаФон предоставил виртуальную инфраструктуру Институту развития образования Свердловской области. Преподаватели, сотрудники и слушатели образовательного учреждения получили дополнительные возможности для развития дистанционных программ в безопасной облачной среде.
Автор: prteammf
Дата публикации: 30.07.2023
МегаФон разработает систему экомониторинга морской акватории Камчатского края
23 июня 2023 МегаФон стал партнёром Правительства Камчатского края в области обеспечения экологической безопасности морской среды. Оператор поможет внедрить технологии мониторинга для сохранения и восстановления морской экосистемы, а также предотвращения возможных природных и техногенных катастроф.
Автор: prteammf
Дата публикации: 30.07.2023
1234...
Вопросы
Отзывы
Информация
Разработка программ и автоматизация вашего бизнеса это основные направления нашей компании. Наше основное отличие это доступность и качество автоматизации.

Copyright © 2025
www.softbusiness.net
Контакты
Написать в отдел технической поддержки пользователей
По всем вопросам
обращаться
по телефону:
+7(918)3883-585