[Войти]

+7(918)3883-585

Готовые программы и решения

В YADRO СДЕЛАЛИ СВОЮ MLOPS-ПЛАТФОРМУ

Дата публикации: 29.08.2025

Как и зачем в Yadro сделали свою MLOps-платформу, в корпоративном блоге компании на «Хабре» рассказал Вадим Извеков, руководитель группы сопровождения платформы машинного обучения Yadro.

В компании есть много проектов, связанных с AI. Всем им нужны ресурсы для работы с моделями на GPU. «Желаем, чтобы только у нас был доступ к оборудованию», - это лишь одно из требований инженеров из AI-дивизиона, а еще нужно оптимизировать использование GPU-ресурсов, вести их учет и живо готовить оборудование к передаче другой команде, говорит Извеков.

Поэтому первоначальная задача MLOps-платформы - оптимизация использования железа между различными командами и задачами, следующая задача - учет. Наконец, третья задача для MLOps-платформы - обслуживание.

Осознав масштабы проблемы, в компании начали изучать доступные решения. Итого е победил вариант Kubernetes с дополнительными компонентами. «Для Data Science он подойдет относительно, потому что в Kubernetes нельзя сделать полностью изолированное окружение. Зато мы контролируем состав платформы, из этого видно, дорабатывать и менять компоненты проще. В целом у Kubernetes крепкая поддержка общества и много возможностей для расширения функционала», - пояснил Вадим Извеков.

«Для первичной настройки виртуальных и физических серверов мы выбрали Ansible, а управления Kubernetes решили взять Kubespray. Его не просто поддерживать, но он позволяет живо подымать кластер, добавлять и устранять ноды, менять настройки, ставить лейблы и taint’ы, а также управлять комплектом встроенных компонентов Kubernetes - Ingress, MetalLB, Argo CD и так далее. Для автоматизации Ansible внедрили AWX, что открыло дорогу к GitOps по отношению управления Kubernetes», - добавил Вадим Извеков.

Хранилище - второй по важности компонент платформы. Оно может статься скорым, надежным, с понятным интерфейсом доступа и высокой пропускной способностью. Первым типом хранилища в Yadro выбрали Tatlin.Object для работы с данными по протоколу S3. Производительность Tatlin.Object позволяет держать там модели и крупные датасеты и работать с ними напрямую - для обучения и для хранения результатов тестирования. Второй тип хранилища - Tatlin.Flex.

«Мы оптимизировали использования ресурсов, мы наладили учет ресурсов и выполняемых на GPU задач, улучшили процессы обслуживания серверов: теперь запросы касаются платформы в целом», - подытожил Вадим Извеков.

Полную версию читайте здесь.

Фото: Freepik

Рекомендуем:

Комментарии

Для того, чтобы добавить комментарий необходимо
войти на сайт

Пока материал никто не комментировал.

Новости

«Информзащита»: атаки ботов особенно интенсивны в сезон распродаж

По данным «Информзащиты», за первое полугодие 2026 года число атак, совершаемых за счет ботов, увеличилось на 46% при сравнении с подобным периодом минувшего года. Наибольший прирост наблюдается в автоматизированных атаках на веб-сервисы, личные личные кабинеты и платежную инфраструктуру, сообщает пресс-служба компании.

Дата публикации: 22.07.2026

TS Solution: первый в России контракт на совместную техническую поддержку UserGate

Компания TS Solution, сертифицированный имеющий отношение российского разработчика решений в части кибербезопасности UserGate, оглашает о заключении первого в России договора с клиентом из финансового сектора на оказание совместной технической помощи межсетевых экранов UserGate NGFW в масштабах проекта вендора «Совместная техническая поддержка».

Дата публикации: 22.07.2026

...

полный список...

Статьи

МегаФон стал партнёром финансовой платформы Банки.ру

1 июня 2023 МегаФон и финансовая платформа Банки.ру (АО «Цифровые технологии») запускают партнёрство. Первый совместный проект позволит предоставить клиентам доступ к финансовым предложениям любого российского банка?участника платформы, независимо от наличия его отделения поблизости.

Автор: prteammf

Дата публикации: 30.07.2023

«МегаФон Облако» поможет учебным заведениям совершенствовать образовательный процесс

14 июня 2023 МегаФон предоставил виртуальную инфраструктуру Институту развития образования Свердловской области. Преподаватели, сотрудники и слушатели образовательного учреждения получили дополнительные возможности для развития дистанционных программ в безопасной облачной среде.

Автор: prteammf

Дата публикации: 30.07.2023

МегаФон разработает систему экомониторинга морской акватории Камчатского края

23 июня 2023 МегаФон стал партнёром Правительства Камчатского края в области обеспечения экологической безопасности морской среды. Оператор поможет внедрить технологии мониторинга для сохранения и восстановления морской экосистемы, а также предотвращения возможных природных и техногенных катастроф.

Автор: prteammf

Дата публикации: 30.07.2023

...

полный список...

Вопросы

Автор: Guest

Дата публикации: 23.06.2020

Здравствуйте! Как мне зайти в личный кабинет? Напомните, пожалуйста, логином является e-mail? И если я забыла пароль?

Автор: denchik

Дата публикации: 17.06.2020

Работал в программе Accounting of food 5.0 и в один момент у меня вылезла ошибка, после которой практически все мои введенные данные исчезли, кроме данных Свойства продуктов. Как решить эту проблему?

Автор: SASHA77777