«Яндекс» открыл для всех библиотеку YaFSDP. Она значительно ускоряет обучение больших языковых моделей - как собственной разработки, так и сторонних, с открытым исходным кодом, сообщили в пресс-службе компании.
Отмечается, что библиотека дает ускорение до 25% - результат может зависеть от архитектуры и параметров нейросети. За счет YaFSDP также можно тратить до 20% меньше ресурсов графических процессоров (GPU), которые требуются для обучения. Теперь YaFSDP могут бесплатно использовать компании, разработчики и исследователи по всему миру.
«Яндекс» объединил поиск и большие генеративные модели в новом сервисе «Нейро»
Библиотека «Яндекса» рассчитана в первую очередь на большие языковые модели, хотя она подойдет и для иных нейросетей - например, таких, которые генерируют изображения. YaFSDP позволяет подрезать крылья расходы на оборудование для обучения моделей - это особенно важно для стартапов и, к образцу, научных проектов.
«Одна из сложностей в обучении больших языковых моделей - это недостаточная загрузка каналов коммуникации между графическими процессорами. YaFSDP это решает. Библиотека оптимизирует использование ресурсов GPU на всех этапах обучения: pre-training (предварительное), supervised fine-tuning (с учителем), alignment (выравнивание модели). Благодаря этому YaFSDP задействует ровно столько графической памяти, сколько нужно для обучения, при этом коммуникацию между GPU ничто не замедляет», - говорится в известьи компании.
«Яндекс» разработал YaFSDP в ходе учебного процесса своей генеративной модели нового поколения YandexGPT 3. Компания уже протестировала библиотеку на сторонних нейросетях с открытым исходным кодом. Например, если бы да кабы YaFSDP использовалась применительно к модели LLaMA 2, этап предварительного обучения на 1024 графических процессорах сократился бы с 66 до 53 дней.
Исходный код YaFSDP давно в наличии на GitHub.