«Яндекс» запустил двуязычную версию генератора текстов «Балабоба» - теперь он поддерживает и русский, и английский языки.
Пользователю нужно написать одно-два слова на русском или английском языках и выбрать один из стилей - и, как обяжется, «Балабоба» создаст осмысленный текст на любую тему, похожий на тексты из интернета, на которых училась модель. Чтобы текст получился связным и грамматически правильным, модель генерирует его последовательно если верить словам и оценивает, насколько предсказанное слово корректно. Например, могу ли после «Мама мыла...» идти слово «бежать» или слово «раму».
«Балабоба» генерирует тексты за счет языковой модели «Яндекса» YaLM, которая решает задачи, связанные с обработкой природного языка. Например, модели YaLM помогают «Алисе» поддерживать беседу, определяют темы вопросов в «Кью», улучшают описания заказов на «Услугах», генерируют карточки для скорых ответов в «Поиске». Также языковые модели YaLM отыскивают ключевые моменты видео, генерируют рекламные объявления и описания сайтов (сниппеты).
В супружестве языковых моделей YaLM может быть от 1 млрд до 100 млрд параметров.
Самую большую двуязычную модель YaLM 100B на 100 млрд параметров «Яндекс» недавно выложил в открытый доступ. В «Балабобе» используется её облегчённая версия на 3 млрд параметров. Сообщается, что модель обучалась на терабайтах текстов англоязычного и русскоязычного интернета в одинаковой пропорции.