В России представили бенчмарк для оценки кодовых моделей

Альянс в сфере ИИ презентовал динамический бенчмарк SWE-MERA
Pexels

Альянс в сфере искусственного интеллекта объявил о запуске динамического бенчмарка SWE-MERA, предназначенного для комплексной оценки моделей программирования на задачах, максимально приближенных к реальным условиям разработки. Об этом сообщается на сайте организации.

Уточняется, что SWE-MERA разработан совместными усилиями MWS AI (входит в МТС Web Services), Сбера и Университета ИТМО.

Подчеркивается, что, в отличие от статичных тестов, SWE-MERA использует автоматизированный пайплайн, который регулярно пополняет набор задач новыми данными из публичных репозиториев GitHub. Это обеспечивает актуальность бенчмарка и снижает риски переобучения моделей.

Среди ключевых особенностей инструмента названы динамичность и актуальность, которые обеспечиваются за счет регулярного обновления набора задач, а также защита от контаминации данных с помощью уникального лидерборда, позволяющего выбирать задачи из конкретных временных периодов.

Также в новом бенчмарке используются автоматизированная методология отбора и проверка задач с применением LLM-as-a-judge и тестового фреймворка. Еще одним преимуществом названа масштабируемость, предусматривающая расширение числа задач и поддерживаемых языков.

В ближайших планах разработчиков — увеличение количества задач и поддержка пяти языков программирования: C++, Java, JavaScript, TypeScript и Go. Также будет расширен лидерборд для более глубокой и объективной оценки моделей.

Сообщается, что SWE-MERA задуман как открытый инструмент для исследователей и разработчиков и, по мнению авторов, может стать новым стандартом в оценке кодовых моделей.

Бенчмарк будет представлен на конференции EMNLP в этом году.

Ранее Альянс в сфере ИИ представил бенчмарк MERA Code, а летом 2025 года — его отраслевую ветку MERA Industrial. Впервые MERA был показан на AI Journey в 2023 году, а затем представлен на конференции ACL.