Russian SuperGLUE

Задача MuSeRC

Название	Идентификатор	Тип задания	Метрика	Лицензия	Скачать	Результат HB
Russian Multi-Sentence Reading Comprehension	MuSeRC	Бинарная классификация	F1a / EM	MIT License		0.806/0.42

Описание

Русский MuSeRC - датасет, который представляет собой задачу reading comprehension, где чтобы ответить на вопрос, необходима информация из нескольких предложений. Дается текст, вопрос к нему и варианты ответов. На вопрос невозможно ответить не произведя операции причинно-следственных связей.

Тип задачи¶

Классификация. True/False

Пример¶


    {
        "id": 397,
        "text": "(1) Мужская сборная команда Норвегии по биатлону в рамках этапа Кубка мира в немецком Оберхофе выиграла эстафетную гонку. (2) Вторыми стали французы, а бронзу получила немецкая команда. (3) Российские биатлонисты не смогли побороться даже за четвертое место, отстав от норвежцев более чем на две минуты. (4) Это худший результат сборной России в текущем сезоне. (5) Четвёртыми в Оберхофе стали австрийцы. (6) В составе сборной Норвегии на четвёртый этап вышел легендарный Уле-Эйнар Бьорндален. (7) Впрочем, Норвегия с самого начала гонки была в числе лидеров, успешно проведя все четыре этапа. (8) За сборную России в Оберхофе выступали Иван Черезов, Антон Шипулин, Евгений Устюгов и Максим Чудов. (9) Гонка не задалась уже с самого начала: если на стрельбе из положения лежа Черезов был точен, то из положения стоя он допустил несколько промахов, в результате чего ему пришлось бежать один дополнительный круг. (10) После этого отставание российской команды от соперников только увеличивалось. (11) Напомним, что днем ранее российские биатлонистки выиграли свою эстафету. (12) В составе сборной России выступали Анна Богалий-Титовец, Анна Булыгина, Ольга Медведцева и Светлана Слепцова. (13) Они опередили своих основных соперниц - немок - всего на 0,3 секунды.",
        "questions": [
            {
                "question": "На сколько секунд женская команда опередила своих соперниц?",
                "answers": [
                    {
                        "text": "Всего на 0,3 секунды.",
                        "label": 1
                    },
                    {
                        "text": "На 0,3 секунды.",
                        "label": 1
                    },
                    {
                        "text": "На секунду.",
                        "label": 0
                    },
                    {
                        "text": "На 0.5 секунд.",
                        "label": 0
                    }
                ],
                "idx": 0
            }]
    }

Как мы собирали данные? ¶

Датасет состоит из ~ 6k вопросов для более чем 800 параграфов из 5 разных доменов:

тексты начальной школы
новости
художественные тексты
сказки
краткое содержание сериалов

Все данные из разных доменов были собраны из открытых источников и автоматически отфильтрованы по следующим параметрам: 1) длина параграфа 2) кол-во именованных сущностей 3) кол-во кореферентных связей. После, параграф был проверен на корректное разбиение на предложения, каждое пронумеровано.

Затем, в Яндекс.Толоке мы сгенерировали задание на разметку, в котором просили толокеров создать/проверить следующую информацию: 1) задать вопрос к тексту 2) придумать ответы к тексту 3) проверить, что чтобы ответить на вопрос нужно более одного предложения в тексте.

Принципы

Ответ содержится в нескольких предложениях, а не в одном!
Ответ не четко (дословно) прописан в тексте. Полный мэтч ответа в изначальном параграфе найти нельзя
Кол-во опций ответов может быть каким угодно и не зависит друг от друга. Правильным/неправильным может быть любой вариант.

State of the Art

Английский MultiRC 88.1/63.3%

Статьи по теме

Наша публикация про датасеты MuSeRC и RuCoS на COLING-2020. Read and Reason with MuSeRC and RuCoS: Datasets for Machine Reading Comprehension for Russian
Оригинал MultiRC
Wang A. et al. Superglue: A stickier benchmark for general-purpose language understanding systems //Advances in Neural Information Processing Systems. – 2019. – С. 3261-3275.