РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Дорожка по классификации текстовой информации

Рассматривается задача тематической классификации Веб-сайтов.

Общий алгоритм проведения един для всех дорожек. На этой странице уточняются конкретные детали для этой дорожки.

Системы-участники

Постановка задачи

Задан список категорий, обучающая выборка и множество сайтов (не документов!). Надо присвоить каждому из сайтов коллекции категорию из этого списка с учётом обучающей выборки.

Один и тот же сайт может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 3-5 категорий) для каждого из классифицируемых сайтов.

Отметим, что сайт может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий.

Условия игры

Исходным набором данных является коллекция Narod.ru.

Множество классов сформировано на основе каталога narod.ru, отбирались категории второго уровня в которых встречалось не менее пяти включенных в набор сайтов. Всего было отобрано 164 категории (список категорий с их численными идентификаторами).

Обучающая выборка - сайты уже входящие в каталог narod.ru, которые попали в коллекцию narod.ru используемую РОМИП.

В распространяемом комплекте обучающая выборка содержится в файлах вида narod_training.*, а тестовые набор сайтов в файлах вида narod.*.

Процедура оценки

На входе известны:
  • набор данных
  • множество всех категорий
  • результаты участников - отображения "документ->категория" для всех сайтов набора
Алгоритм оценки:
  1. Выбирается (случайным образом) несколько (заранее неизвестных) категорий. Количество проверяемых категорий (2-3-4-5-10) зависит от объёма доступных ресурсов.
  2. Для каждой из этих категорий формируется "общий котёл", в который попадают все сайты, которым хотя бы одна из систем присвоила одну из этих категорий.
    При 50 категориях и 5000 сайтов ожидаемый размер "общей кучи" для категории примерно 5000/50*sqrt(число участников), то есть 200-300.
  3. Эксперты оценивают все документы из кучи на предмет соответствия конкретной категории.
    (возможные ответы: да/нет/невозможно оценить)
  4. Аппроксимируется точность и полнота классификации по оцениваемым категориям.

Форматы

Затраты

  • Подготовка и распространение данных (носители)
  • Финансирование сбора экспертных оценок