Сбер открыл доступ к новому семейству токенизаторов KVAE-2.0, предназначенных для создания моделей генерации изображений и видео. Разработка команды Kandinsky распространяется под лицензией MIT и может использоваться как в исследовательских, так и в коммерческих проектах, сообщила пресс-служба компании.
Уточняется, что токенизаторы — базовый компонент диффузионных моделей, они позволяют преобразовывать изображения и видео в компактные числовые представления, с которыми работают генеративные алгоритмы. Новое решение обеспечивает более эффективное сжатие видеоданных — до четырех раз по сравнению с предыдущей версией — при одновременном повышении качества восстановления изображения.
В Сбере отметили, что использование KVAE-2.0 позволяет значительно ускорить обучение моделей генерации видео и снизить требования к вычислительной инфраструктуре. По ключевым метрикам качества разработка опережает аналогичные решения ряда международных технологических компаний.
«С KVAE-2.0 качественная видеогенерация стала доступнее для широкого круга разработчиков — от стартапов до университетов. Решение позволяет обучать модели быстрее и дешевле», — отметил управляющий директор по исследованию данных Сбера Денис Димитров.
По его словам, новая технология также открывает дополнительные сценарии применения, включая создание рекламных видеоматериалов с передачей текста и логотипов, а также образовательного контента с высокой детализацией.
Ключевым преимуществом KVAE-2.0 в компании назвали формирование семантически устойчивых представлений, позволяющих точнее сохранять значимые элементы изображения, такие как текст, лица и структурные объекты. Отмечается, что модели дополнительно оптимизированы для работы с русским текстом в кадре, где демонстрируют более высокие показатели качества по сравнению с аналогами.
В Сбере подчеркнули, что публикация токенизаторов в открытом доступе направлена на развитие экосистемы генеративного искусственного интеллекта и расширение возможностей для разработчиков по всему миру.