Тестовые коллекции

Таблицы релевантности

Участники 2012

Дорожки 2012

Архив

Список участников РОМИП'09

Следующие заявки на участие в РОМИП'2009 были получены:

	Поиск по запросу по Веб-коллекции	Поиск по запросу по коллекции нормативно-правовых документов	Поиск по запросу по смешанной коллекции	Поиск похожих документов	Классификация Веб-сайтов	Классификация Веб-страниц	Классификация нормативно-правовых документов	Кластеризация новостного потока	Фактографический поиск по новостной коллекции	Контекстно-зависимое аннотирование текстовых документов	Вопросно-ответный поиск	Поиск изображений по визуальному подобию	Поиск нечетких дубликатов в коллекции изображений
ARE	-	-	-	-	-	-	-	-	+	-	+	-	-
EventSupervisor	-	-	-	-	-	-	-	+	+	-	-	-	-
Exactus	+	-	-	-	+	-	-	-	-	+	+	-	-
hbc-S	-	-	-	-	-	-	-	-	-	-	-	-	+
HeadHunter	+	+	-	-	-	-	-	-	-	-	-	-	-
HSVISE	-	-	-	-	-	-	-	-	-	-	-	+	+
IFM2	-	-	-	-	-	-	-	-	-	-	-	-	+
JKX	+	-	-	-	-	-	-	-	-	-	-	-	-
KGCDA	-	-	-	-	-	-	-	-	-	+	-	-	-
LISA	-	-	-	-	-	-	-	-	-	-	-	+	+
mnoGoSearch	+	+	+	-	-	-	-	-	-	-	-	-	-
RCO	-	+	-	-	+	+	+	-	-	-	-	-	-
SEUS	+	+	-	-	-	-	-	-	-	-	-	-	-
Subject Search Sleuth (SSS)	+	+	+	-	-	-	-	-	-	-	-	-	-
Yandex.Server	+	-	+	-	-	-	-	-	-	+	-	-	-
Галактика-Zoom	-	-	-	-	+	+	+	+	-	-	-	-	-
Поиск@Mail.ru	+	+	-	-	-	-	-	-	-	-	-	-	-
Поиск KM.ru	+	+	-	-	-	-	-	-	-	-	-	-	-
СКАТ	-	-	-	+	-	-	+	+	-	-	-	-	-
УИС РОССИЯ	+	+	-	-	+	+	+	+	-	-	-	-	-

ARE
Система ARE (Anchors and Relations) извлекает информацию из текстов на основе извлечения ключевых фраз (якорей) и анализа отношений между якорями.
EventSupervisor
Система EventSupervisor является экспериментальной системой структурирования новостного web-потока. Основная идея системы заключается в статистической кластеризации документов с использованием особенностей присущих новостным web-потокам и собственно новостям.
Exactus

Exactus - система семантического поиска и анализа текстовой информации. Exactus - это научно-исследовательский проект, который развивается в Институте системного анализа РАН в течении последних 5 лет командой опытных лингвистов, программистов, математиков и психологов.

Новая версия Exactus успешно сочетает в себе статистические и лингвистические методы анализа текстов и функицонирует на высокопроизводительной кластерной установке под управлением операционной системы Unix. Exactus представляет поисковый сервисы естественно-языкового поиска, вопросно-ответного поиска, расширения запроса близкими по смыслу словами из Тезауруса, персональной онтологии пользователя и много другое.
hbc-S
В основе системы лежит идея выделения из изображения точечных особенностей, инвариантных относительно преобразований, которые впоследствии объединяются в кластеры, индивидуальные для каждого изображения. Предполагается, что структура кластеров для картинок-дубликатов будет примерно одинакова, что и позволит их выявить.
HeadHunter
Экспериментальная поисковая система, в которой используются классические алгоритмы и собственные разработки. На семинаре планируется опробовать новую версию ранжирующей формулы.
HSVISE
Система позволяет искать дубликаты изображений по образцу, а так же искать изображения содержащие данные образец в своей композиции. При первичной обработке в системе используется представление изображения как вектора метрического пространства основанного на цветовой модели HSV(Hue, Saturation, Value). Во-первых, такое представление позволяет ввести ряд удобных методов сравнения изображений, позволяющих повысить вычислительную эффективность. Во-вторых, компоненты цвета в HSV лучше отвечают субъективным ощущениям челвовека при визуальном анализе изображения. Система предназначена для работы в реальном времени на современном персональном компьютере при объеме коллекции изображений порядка 50-100 тыс.
IFM2
Система поиска нечетких дубликатов - IFM2 сочетает методики управления вниманием, основанные на моделях управления вниманием живых организмов и методики поиска точечных особенностей изображений interest point detection. Основная идея состоит в определении небольшого числа участков изображений, являющихся наиболее заметными в терминах модели управления вниманием. Для описания таких участков используются стандартные дескрипторы точечных особенностей: SIFT, PCA-SIFT, SURF. Изображение характеризуется набором векторов - дескрипторов наиболее заметных участков изображения. Задача сравнения двух изображений сводится к сравнению локальных свойств этих изображений.
JKX

Экспериментальный метод, основанный на классических алгоритмах с нестандартным подходом к моделированию Web.
KGCDA
KGCDA - это система контекстно-зависимого аннотирования, основанная на использовании многофакторной модели оценивания фрагментов текста и оптимизации ее параметров при помощи обучающей выборки документов.
LISA
В рамках дорожки поиска изображений по визуальному подобию предлагается решение модифицированной задачи: построить и сохранить текстовые аннотации для всех предлагаемых изображений, а затем производить поиск по полученным аннотациям. Для аннотирования предлагается использовать вероятностные методы. В задаче поиска нечетких дубликатов планируется усовершенствовать метод, основанный на многомасштабном знаковом представлении изображения. Идея метода состоит в анализе знаков градиента изображения для нескольких масштабов. Подробнее...
mnoGoSearch
MnoGoSearch - свободно распространяемое поисковое программное обеспечение, работающее в операционных системах семейства Unix и предназначенное для организации поиска на одном или многих Web-серверах. mnoGoSearch использует технологию инвертированного индекса. Расчет релевантности в mnoGoSearch использует формулу TF*IDF с учетом дополнительных параметров, таких как расстояние между словами, распределение слов по секциям документа, наличие словоформ и синонимов и др.
RCO
Компания RCO специализируется на исследованиях в области компьютерной лингвистики и создании компонентов интеллектуального анализа текста для информационно-поисковых и информационно-аналитических систем. На семинаре планируется провести апробацию ряда алгоритмов тематической классификации документов и поиска документов по запросу.
SEUS
SEUS - проект поисковой системы, основанный на автоматическом построении семантического представления текста. Для ранжирования документов используются классические мехаизмы ранжирования для векторной модели, Но вместо термов используются семантические признаки, а в качестве их весов - показатели достоверности.
Система реализуется на базе:
- Синтаксического анализатора Dictum
- Лексико-синтаксических шаблонов
- Поискового движка Lucene
Subject Search Sleuth (SSS)
Subject Search Sleuth (SSS) - это система поиска и построения резюме, в основе которой лежит оригинальный быстрый непереборный алгорифм приближённого поиска строки запроса, котрый допускает перестановку терминов, присутствующих в образце, а также присутствие других терминов или отсутствие некоторых из них. Благодаря использованию в качестве элементов поиска Q-Термов вместо слов, канонических словоформ или корневых морфем, алгорифм SSS легко применим к поиску по текстам на многих языках. Текущая реализация поддерживает 40 языков, а именно, большинство европейских, а также азиатские (японский, китайский, корейский), и ряд других, включая иврит, индонезийский и арабский.
Yandex.Server
Галактика-Zoom
Галактика-Zoom представляет собой систему обработки больших объемов неструктурированных данных. Система является инструментом для создания хранилища текстовой информации, обладает возможностями полнотекстового поиска и аналитических исследований. При проведении поиска возможно использование контекстного или тематического поиска, поиска с учетом морфологии языка, развитого языка поисковых запросов. Система предоставляет возможность построения информационного образа объекта исследования (Информационного портрета) на основе языковых конструкций - слов и словосочетаний.
Поиск@Mail.ru
Поиск KM.ru
Версия алгоритма mod 2.5. Поисковая система KM.RU - это традиционные поисковые алгоритмы и собственные разработки.
СКАТ
Система основана на комбинированном использование статистических и лингвистических методов классификации для решения следующих задач: полнотекстовый поиск, классификация, кластерный анализ, формирование сводных документов. Описание основных используемых методов приведено в монографии: Васильев В.Г., Кривенко М.П. Методы автоматизированной обработки текстов.
УИС РОССИЯ

Университетская информационная система РОССИЯ (УИС РОССИЯ) - проект, нацеленный на интеграцию информационных ресурсов для гуманитарных исследований. Поддерживается Научно-исследовательским вычислительным центром МГУ имени М.В.Ломоносова (НИВЦ МГУ имени М.В.Ломоносова) и АНО Центр информационных исследований (АНО ЦИИ).

Решения на основе технологий УИС РОССИЯ - тематический анализ текстов, классификация по большим рубрикаторам, интерактивный поиск документов, агрегирование новостного потока - используются в некоторых органах государственной власти и управления, коммерческих организациях.