РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Дорожка по тематической классификации нормативно-правовых документов

Задача

Дорожка посвящена классической задаче тематической классификации документов на основе коллекции нормативных документов.

Общая процедура проведения дорожки стандартна.

Коллекция

Исходным набором данных является коллекция нормативных документов.

Формулировка задания для участвующей системы

Каждой системе-участнику предоставляется список категорий, обучающая выборка и множество документов из коллекции нормативных документов. Надо присвоить каждому из документов коллекции категорию из этого списка с учётом обучающей выборки.

Один и тот же документ может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 5 категорий) для каждого из классифицируемых документов. Документ может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий.

Обучающая выборка - подвыборка коллекции, построеная на основе каталога Кодекс. Документы, относящиеся к ней, хранятся в архивах с именами вида legal_training.*.

Предполагается, что классификации должны подвергаться все документы из архивов вида legal.*, и для каждого из этих документов будет указано от 0 до 5 рубрик (список должен быть упорядочен в порядке убывания вероятности принадлежности к рубрике).

Методология оценки

  • Оценка результатов будет проводится для некоторого количества выбранных случайным образом рубрик и будет основана на использовании полного каталога Кодекс (верифицированного экспертами вручную).
  • Также планируется проведение независимой оценки части данных экспертами РОМИП (не имеющими опыта работы с нормативными документами).
    В этом случае предполагается следующая процедура:
    • постановка задания ассессору:
      Ассессор оценивает соответствие документа указанной теме.
    • шкала оценки релевантности:
      • точно/возможно/вероятно/нет/невозможно оценить
      • да/нет/невозможно оценить
  • официальные метрики:
    • точность
    • полнота

Форматы данных