Размер шрифта
Новости Спорт
Выйти
ЧМ-2026Проблемы с бензином в РоссииВзрыв в Монако
Технологии

Сбер представил экспериментальную диффузионную языковую модель и метод ее обучения

Сбер выложил в открытый доступ диффузионную языковую модель GFusion

Сбер опубликовал первую диффузионную языковую модель GFusion на основе GigaChat, сообщает пресс-служба банка.

В Сбере отметили, что модель будет полезна исследователям и разработчикам, которые создают собственные диффузионные модели.

Отличие GFusion от других моделей в том, что модель сначала создает приблизительный «набросок» ответа, а затем пошагово дорабатывает его. В Сбере добавили, что модель пишет тексты до 45% быстрее GigaChat 3.

Вместе с моделью Сбер опубликовал инструменты, ускоряющие обучение диффузионных моделей. С помощью инструментом разработчики смогут быстрее обучать свои модели, используя меньше видеокарт. Также разработчики добавили в SGLang поддержку GFusion и нового алгоритма генерации.

«Диффузионные модели лучше структурируют ответы и могут генерировать текст непоследовательно, самостоятельно выбирая порядок его написания. Они эффективнее используют ограниченный объем данных при обучении по сравнению с классическими LLM», — рассказал инженер машинного обучения Сбера, автор проекта Даниил Тихонов.

По словам технического директора фундаментальных моделей GigaChat Федора Минькина, диффузионные модели – одно из самых перспективных направлений в генеративном ИИ.

«Насколько нам известно, это первая выпущенная в опенсорс диффузионная модель для генерации текста такого масштаба в России. Это хороший сигнал: сильные исследования в ИИ все чаще двигают именно молодые специалисты, и мы рады, что у них есть для этого все условия в Сбере», — сказал он.

 
Холодильник не для всех. Как хранить лекарства в жару, чтобы не испортить
На сайте используются cookies. Продолжая использовать сайт, вы принимаете условия
Ok
1 Подписывайтесь на Газету.Ru в MAX Все ключевые события — в нашем канале. Подписывайтесь!