Задача RuCoS

Название Идентификатор Тип задания Метрика Лицензия Скачать Результат HB
Russian reading comprehension with Commonsense reasoning RuCoS Бинарная классификация F1/EM MIT License 0.93/0.924

Описание

Russian reading comprehension with Commonsense reasoning (RuCoS) - это корпус заданий на понимание прочитанного, который требует обладания здравым смыслом. RuCoS состоит из запросов, автоматически генерируемых из новостных статей, текстов статей и ответов; ответ на каждый запрос - это текстовый отрывок из краткого изложения соответствующих новостей. Целью RuCoS является оценка способности машины к здравому смыслу при чтении.

Тип задачи

Reading Comprehension (Понимание прочитанного), Commonsense (Здравый смысл). F1 / Accuracy

Пример


  {'source': 'Lenta',
   'passage': {
          'text':
          'Мать двух мальчиков, брошенных отцом в московском аэропорту Шереметьево, забрала их. Об этом сообщили ТАСС в пресс-службе министерства образования и науки Хабаровского края. Сейчас младший ребенок посещает детский сад, а старший ходит в школу. В учебных заведениях с ними по необходимости работают штатные психологи. Также министерство социальной защиты населения рассматривает вопрос о бесплатном оздоровлении детей в летнее время. Через несколько дней после того, как Виктор Гаврилов бросил своих детей в аэропорту, он явился с повинной к следователям в городе Батайске Ростовской области.\n@context\nБросившего детей в Шереметьево отца задержали за насилие над женой\n@context\nРоссиянина заподозрили в истязании брошенных в Шереметьево детей\n@context\nОставивший двоих детей в Шереметьево россиянин сам пришел к следователям',
          'entities': [
              {'start': 60, 'end': 71, 'text': 'Шереметьево'},
              {'start': 102, 'end': 106, 'text': 'ТАСС'},
              {'start': 155, 'end': 172, 'text': 'Хабаровского края'},
              {'start': 470, 'end': 485, 'text': 'Виктор Гаврилов'},
              {'start': 563, 'end': 571, 'text': 'Батайске'},
              {'start': 572, 'end': 590, 'text': 'Ростовской области'},
              {'start': 620, 'end': 631, 'text': 'Шереметьево'},
              {'start': 725, 'end': 736, 'text': 'Шереметьево'},
              {'start': 778, 'end': 789, 'text': 'Шереметьево'}
          ]
      },
      'qas': [
          {
              'query': '26 января @placeholder бросил сыновей в возрасте пяти и семи лет в Шереметьево.',
              'answers': [
                  {'start': 470, 'end': 485, 'text': 'Виктор Гаврилов'}
              ],
              'idx': 0
          }
      ],
      'idx': 0
  }

Как мы собирали данные?

Все текстовые примеры были собраны из открытых источников новостей, а затем автоматически отфильтрованы с помощью систем QA, чтобы не допустить проникновения очевидных вопросов в набор данных. Затем тексты были отфильтрованы по частоте IPM содержащихся слов и, наконец, просмотрены вручную.

State of the Art

Английский ReCoRD - Средняя F1/ Точность 94.1/93.4%

Статьи по теме