Название | Идентификатор | Тип задания | Метрика | Лицензия | Скачать | Результат HB |
---|---|---|---|---|---|---|
Russian Multi-Sentence Reading Comprehension | MuSeRC | Бинарная классификация | F1a / EM | MIT License | 0.806/0.42 |
Русский MuSeRC - датасет, который представляет собой задачу reading comprehension, где чтобы ответить на вопрос, необходима информация из нескольких предложений. Дается текст, вопрос к нему и варианты ответов. На вопрос невозможно ответить не произведя операции причинно-следственных связей.
Классификация. True/False
{
"id": 397,
"text": "(1) Мужская сборная команда Норвегии по биатлону в рамках этапа Кубка мира в немецком Оберхофе выиграла эстафетную гонку. (2) Вторыми стали французы, а бронзу получила немецкая команда. (3) Российские биатлонисты не смогли побороться даже за четвертое место, отстав от норвежцев более чем на две минуты. (4) Это худший результат сборной России в текущем сезоне. (5) Четвёртыми в Оберхофе стали австрийцы. (6) В составе сборной Норвегии на четвёртый этап вышел легендарный Уле-Эйнар Бьорндален. (7) Впрочем, Норвегия с самого начала гонки была в числе лидеров, успешно проведя все четыре этапа. (8) За сборную России в Оберхофе выступали Иван Черезов, Антон Шипулин, Евгений Устюгов и Максим Чудов. (9) Гонка не задалась уже с самого начала: если на стрельбе из положения лежа Черезов был точен, то из положения стоя он допустил несколько промахов, в результате чего ему пришлось бежать один дополнительный круг. (10) После этого отставание российской команды от соперников только увеличивалось. (11) Напомним, что днем ранее российские биатлонистки выиграли свою эстафету. (12) В составе сборной России выступали Анна Богалий-Титовец, Анна Булыгина, Ольга Медведцева и Светлана Слепцова. (13) Они опередили своих основных соперниц - немок - всего на 0,3 секунды.",
"questions": [
{
"question": "На сколько секунд женская команда опередила своих соперниц?",
"answers": [
{
"text": "Всего на 0,3 секунды.",
"label": 1
},
{
"text": "На 0,3 секунды.",
"label": 1
},
{
"text": "На секунду.",
"label": 0
},
{
"text": "На 0.5 секунд.",
"label": 0
}
],
"idx": 0
}]
}
Датасет состоит из ~ 6k вопросов для более чем 800 параграфов из 5 разных доменов:
Все данные из разных доменов были собраны из открытых источников и автоматически отфильтрованы по следующим параметрам: 1) длина параграфа 2) кол-во именованных сущностей 3) кол-во кореферентных связей. После, параграф был проверен на корректное разбиение на предложения, каждое пронумеровано.
Затем, в Яндекс.Толоке мы сгенерировали задание на разметку, в котором просили толокеров создать/проверить следующую информацию: 1) задать вопрос к тексту 2) придумать ответы к тексту 3) проверить, что чтобы ответить на вопрос нужно более одного предложения в тексте.
Английский MultiRC 88.1/63.3%