Чтобы оценить свою модель на бенчмарке Russian SuperGLUE, соберите для каждого датасета результаты прогонов вашей системы, включая диагностический сет (для последнего, необходимо использовать RTE классификатор).
  • Скачайте все данные из раздела "Задания"
  • Используйте те же самые ID и лейблы в тестовом сете для каждого из заданий в ваших файлах с ответами. Каждая строка в сгенерированном JSONL (не JSON!) должна соответствовать изначальному файлу, иначе Вы не сможете правильно сматчить idx, и результат оценки будет некорректный.
  • Добавьте ссылку на свою модель (статью или код на github). Это важно. Для того, чтобы попасть на лидерборд, нам нужно убедиться, что ваш результат честный
  • Проверьте, что все файлы с вашими результатами в JSONL названы следующим образом:
    • DaNetQA: DaNetQA.jsonl
    • CommitmentBank: RCB.jsonl
    • PARus: PARus.jsonl
    • MuSeRC: MuSeRC.jsonl
    • RuCoS: RuCoS.jsonl
    • TERRa: TERRa.jsonl
    • Words in Context: RUSSE.jsonl
    • Winograd Schema Challenge: RWSD.jsonl
    • Broad Coverage Diagnostics: LiDiRus.jsonl

Вы можете загрузить до двух сабмишенов в день и до 10 в месяц. Пример корректного форматирования сабмишена здесь.

Системы могут использовать какие угодно публичные и приватные данные в процессе разработки и обучения. Исключение составляют:

  • Системы должны использовать для обучения данные с официального сайта или репозитория Russian SuperGLUE. Источники из других мест могут содержать неверное разбиение на обучение/валидацию/тест и другой набор метаданных.
  • Системы не должны использовать примеры предложений из Викисловаря, RuWordNet и других подобных источников в процессе обучения. Допустимо использовать эти предложения как изолированные предложения необработанного текста, но их использование вместе с любой контекстной информацией, такой как смысл или идентичность набора, может дать преимущество в задаче WiC.
  • Системы не должны использовать неразмеченные тестовые данные из заданий Russian Super GLUE для обучения моделей, и не распределять информацию между тестовыми примерами ни в каком виде. Нехорошо обучаться на тестовых данных!

Загруженный сабмит модели автоматически не становится публичным. Как только вы поставите галочку “Опубликовать”, администраторам Russian Super GLUE придет оповещение на проверку сабмита. Как только они его одобрят, вам придет оповещение на почту, и на лидерборде появится ваша модель. Если вы захотите обновить данный сабмит, процедура повторится. Пожалуйста, проверяйте свой сабмит перед отправкой и разрешением сделать его публичным.

Публичными становятся сабмиты, которые имеют ссылку либо на модель, либо на статью, либо короткое описание модели. Кроме того, для справедливой оценки, мы просим авторов указывать все источники, параметры моделей и данные, которые они использовали при создании системы.

Можно. В лидерборде отображаются названия команд и моделей, но Вы можете сделать анонимный аккаунт. Главное, чтобы участники и администраторы могли с Вами связаться.

Все задачи оригинального SuperGLUE построены на основе существующих наборов данных. В русской версии были созданы эквиваленты с нуля. Все наборы данных Russian Super GLUE публикуются по лицензии MIT.

Если вы засабмители модель, для начала подождите — обработка модели может занять некоторое время.

Затем проверьте, что ваш сабмит загрузился в системe, - он появится в списке ваших сабмитов. В противном случае появится сообщение об ошибке.

В остальных случаях, если сабмит почему-то не сработал — свяжитесь с нами по адресу russiansuperglue@gmail.com.

Сабмит может быть не зачтен и выдать ошибку в следующих случаях:

  • В загруженном zip архиве нет какого-то из необходимых файлов для заданий.
  • Что-то не так с метаданными (например, вы пропустили ID). Все ID для каждого из заданий в JSONL обязательны и начинаются с 0. Проверьте, что все ID соответствуют тестовому сету.

Баллы рассчитываются для каждой из задач на основе оценок по каждому из заданий. Все показатели масштабируются в 100 раз (т.е. приводятся к процентам). Эти оценки затем усредняются для получения финального результата. Для задач с несколькими метриками, эти метрики усредняются. В таблице лидеров по умолчанию отображается или оценивается только сабмит пользователя с наибольшим количеством баллов. Чтобы результаты отображались в списке лидеров, пожалуйста, нажмите на кнопку «опубликовать». Другие сабмиты могут быть просмотрены в расширенном представлении для каждого пользователя. Участники могут подать заявку в частном порядке, чтобы их результаты не появлялись в публичном списке лидеров.

Да, можно взять уже готовую модель. Пожалуйста, в качестве примера используйте наш jupyter notebook

Вы можете связаться с нами по почте: russiansuperglue@gmail.com