Задача MuSeRC

Название Идентификатор Тип задания Метрика Лицензия Скачать Результат HB
Russian Multi-Sentence Reading Comprehension MuSeRC Бинарная классификация F1a / EM MIT License 0.806/0.42

Описание

Русский MuSeRC - датасет, который представляет собой задачу reading comprehension, где чтобы ответить на вопрос, необходима информация из нескольких предложений. Дается текст, вопрос к нему и варианты ответов. На вопрос невозможно ответить не произведя операции причинно-следственных связей.

Тип задачи

Классификация. True/False

Пример


    {
        "id": 397,
        "text": "(1) Мужская сборная команда Норвегии по биатлону в рамках этапа Кубка мира в немецком Оберхофе выиграла эстафетную гонку. (2) Вторыми стали французы, а бронзу получила немецкая команда. (3) Российские биатлонисты не смогли побороться даже за четвертое место, отстав от норвежцев более чем на две минуты. (4) Это худший результат сборной России в текущем сезоне. (5) Четвёртыми в Оберхофе стали австрийцы. (6) В составе сборной Норвегии на четвёртый этап вышел легендарный Уле-Эйнар Бьорндален. (7) Впрочем, Норвегия с самого начала гонки была в числе лидеров, успешно проведя все четыре этапа. (8) За сборную России в Оберхофе выступали Иван Черезов, Антон Шипулин, Евгений Устюгов и Максим Чудов. (9) Гонка не задалась уже с самого начала: если на стрельбе из положения лежа Черезов был точен, то из положения стоя он допустил несколько промахов, в результате чего ему пришлось бежать один дополнительный круг. (10) После этого отставание российской команды от соперников только увеличивалось. (11) Напомним, что днем ранее российские биатлонистки выиграли свою эстафету. (12) В составе сборной России выступали Анна Богалий-Титовец, Анна Булыгина, Ольга Медведцева и Светлана Слепцова. (13) Они опередили своих основных соперниц - немок - всего на 0,3 секунды.",
        "questions": [
            {
                "question": "На сколько секунд женская команда опередила своих соперниц?",
                "answers": [
                    {
                        "text": "Всего на 0,3 секунды.",
                        "label": 1
                    },
                    {
                        "text": "На 0,3 секунды.",
                        "label": 1
                    },
                    {
                        "text": "На секунду.",
                        "label": 0
                    },
                    {
                        "text": "На 0.5 секунд.",
                        "label": 0
                    }
                ],
                "idx": 0
            }]
    }
  

Как мы собирали данные?

Датасет состоит из ~ 6k вопросов для более чем 800 параграфов из 5 разных доменов:

  • тексты начальной школы
  • новости
  • художественные тексты
  • сказки
  • краткое содержание сериалов

Все данные из разных доменов были собраны из открытых источников и автоматически отфильтрованы по следующим параметрам: 1) длина параграфа 2) кол-во именованных сущностей 3) кол-во кореферентных связей. После, параграф был проверен на корректное разбиение на предложения, каждое пронумеровано.


Затем, в Яндекс.Толоке мы сгенерировали задание на разметку, в котором просили толокеров создать/проверить следующую информацию: 1) задать вопрос к тексту 2) придумать ответы к тексту 3) проверить, что чтобы ответить на вопрос нужно более одного предложения в тексте.

Принципы

  • Ответ содержится в нескольких предложениях, а не в одном!
  • Ответ не четко (дословно) прописан в тексте. Полный мэтч ответа в изначальном параграфе найти нельзя
  • Кол-во опций ответов может быть каким угодно и не зависит друг от друга. Правильным/неправильным может быть любой вариант.

State of the Art

Английский MultiRC 88.1/63.3%

Статьи по теме