Формат представления результатов для дорожки классификации страниц
Результат классификации страниц представляется в виде одного XML файла
или нескольких файлов, каждый из которых содержит списки
назначенных категорий для некоторого множества классифицируемых сайтов.
XML файл должен иметь следующую структуру:
<?xml version="1.0"?>
<romip:taskresult xmlns:romip="http://www.romip.ru/data/classification" trackId="ROMIP-2008-Webpage-classification">
<!-- для классификации документов по нормативной коллекции trackId="ROMIP-2008-Legal-classification" -->
<romip:run>
<romip:systemID>Yellow</romip:systemID>
<romip:runID>MyRunId</romip:runID>
</romip:run>
<result>
<doclist topicID="240">
<docID>http://www.frisbee.ru/index.html</docID>
<docID>http://air-france.at.tut.by/<docID>
</doclist>
<doclist topicID="184">
<docID>http://afisha.vokrug.by/teatr/?type=spt&spt_id=53</docID>
<docID>http://archives.gov.by/index.php?id=290443<docID>
<docID>http://cat.extreme.by/site188.html<docID>
</doclist>
</result>
</romip:taskresult>
Блок run характеризует систему, с помощью которой были предоставлены
результаты.
-
systemID - идентификатор системы, которые был предоставлен
организаторами при регистрации.
-
runID - идентификатор модификации системы, которая использовалась для этого
прогона (характеризует параметры эксперимента). Его форма определяется
участником самостоятельно.
Блок result описывает к каким темам относятся классифицируемые
страницы.
Порядок перечня документов в doclist отображает порядок выдачи результатов.
Идентификаторы отнесенных к категории (значение аттрибута topicID) документов
перечисляются в виде списка тегов document. Идентификаторы
документов и категорий должны соответствовать тем, что указаны в коллекции и
обучающем множестве.
Внимание: Для ограничения объема выдаваемых
результатов по дорожке классификации Веб-страниц установлен максимальный предел в пять категорий для одного
элемента.
|