РОМИП

 Новости 
 Регистрация 2012! 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Материалы РОМИП 
 Тестовые коллекции 
 Таблицы релевантности 
 Участники 2012 
 Дорожки 2012 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Коллекция нормативных документов 2007

Описание

Коллекция подготовлена и предоставлена консорциумом Кодекс в 2007 году.

Коллекция содержит тексты документов Законодательства Российской Федерации, Москвы и Санкт-Петербурга по состоянию на 2 неделю декабря 2006 года.

Тексты документов представлены в формате HTML в упрощенном представлении. Особенности:

  • Название документа скопировано в каждый текст документа в поле title
  • Все физическое форматирование документов осуществляется с помощью стилей, которые не прилагаются.
  • В текстах не используются тэги Hx и для определения заголовков (если это нужно) необходимо анализировать тэги P c параметром class имеющим значение "headertext".

Статистика по набору данных
  • Число страниц: 300 000
  • Кодировка: cp1251
Особенности коллекции

Особенностью этой коллекции является наличие нескольких версий текста у одного и того же документа (тэг content). Это сделано для того, чтобы сохранить в коллекции информацию о редакциях документов. Так же у тэга content может быть аттрибут date со значением - дата в формате GMT, когда эта редакция была принята. У исходной редакции этого параметра нет.

Права на использование

Права на использование в целях РОМИП предоставлены компанией Кодекс, являющейся владельцем коллекции. Для получения доступа к коллекции необходимо подписать соглашение об использовании.

Формат и парсер

Коллекция распространяется в виде xml файлов, определенного формата.

Список дорожек, в которых использовалась коллекция
  • поиск по коллекции нормативных документов
  • поиск по смешанной коллекции
  • классификация нормативных документов