-
ARE
Система ARE (Anchors and Relations) извлекает информацию из текстов на основе
извлечения ключевых фраз (якорей) и анализа отношений между якорями.
-
EventSupervisor
Система EventSupervisor является экспериментальной системой
структурирования новостного web-потока. Основная идея системы заключается в
статистической кластеризации документов с использованием особенностей
присущих новостным web-потокам и собственно новостям.
-
Exactus
Exactus - система семантического поиска и анализа текстовой
информации. Exactus - это научно-исследовательский проект, который
развивается в Институте системного анализа РАН в течении последних 5
лет командой опытных лингвистов, программистов, математиков и
психологов.
Новая версия Exactus успешно сочетает в себе статистические и
лингвистические методы анализа текстов и функицонирует на
высокопроизводительной кластерной установке под управлением
операционной системы Unix. Exactus представляет поисковый сервисы
естественно-языкового поиска, вопросно-ответного поиска, расширения
запроса близкими по смыслу словами из Тезауруса, персональной
онтологии пользователя и много другое.
-
hbc-S
В основе системы лежит идея выделения из изображения точечных особенностей,
инвариантных относительно преобразований, которые впоследствии объединяются
в
кластеры, индивидуальные для каждого изображения. Предполагается, что
структура кластеров для
картинок-дубликатов будет примерно одинакова, что и позволит их выявить.
-
HeadHunter
Экспериментальная поисковая система, в которой используются классические
алгоритмы и собственные разработки. На семинаре планируется опробовать новую
версию ранжирующей формулы.
-
HSVISE
Система позволяет искать дубликаты изображений по образцу, а так же искать
изображения содержащие данные образец в своей композиции. При первичной
обработке в системе используется представление изображения как вектора
метрического пространства основанного на цветовой модели HSV(Hue,
Saturation, Value). Во-первых, такое представление позволяет ввести ряд
удобных методов сравнения изображений, позволяющих повысить вычислительную
эффективность. Во-вторых, компоненты цвета в HSV лучше отвечают субъективным
ощущениям челвовека при визуальном анализе изображения.
Система предназначена для работы в реальном времени на современном
персональном компьютере при объеме коллекции изображений порядка 50-100 тыс.
-
IFM2
Система поиска нечетких дубликатов - IFM2 сочетает методики управления
вниманием, основанные на моделях управления вниманием живых организмов и
методики поиска точечных особенностей
изображений interest point
detection. Основная идея состоит в определении небольшого числа
участков изображений,
являющихся наиболее заметными в терминах модели управления вниманием. Для
описания таких участков используются стандартные
дескрипторы точечных особенностей: SIFT, PCA-SIFT, SURF.
Изображение характеризуется набором векторов - дескрипторов наиболее
заметных участков изображения. Задача сравнения двух изображений сводится к
сравнению локальных свойств
этих изображений.
-
JKX
Экспериментальный метод, основанный на
классических алгоритмах с нестандартным подходом к моделированию Web.
-
KGCDA
KGCDA - это система контекстно-зависимого аннотирования, основанная на
использовании многофакторной модели оценивания фрагментов текста и
оптимизации ее
параметров при помощи обучающей выборки документов.
-
LISA
В рамках дорожки поиска изображений по визуальному подобию
предлагается решение модифицированной задачи: построить и сохранить
текстовые аннотации для всех предлагаемых изображений, а затем
производить поиск по полученным аннотациям. Для аннотирования
предлагается использовать вероятностные методы. В задаче поиска
нечетких дубликатов планируется усовершенствовать метод, основанный
на многомасштабном знаковом представлении изображения. Идея метода
состоит в анализе знаков градиента изображения для нескольких
масштабов. Подробнее...
-
mnoGoSearch
MnoGoSearch - свободно распространяемое поисковое программное обеспечение,
работающее в операционных системах семейства Unix и
предназначенное для организации поиска на одном или многих Web-серверах.
mnoGoSearch использует технологию инвертированного индекса.
Расчет релевантности в mnoGoSearch использует формулу TF*IDF
с учетом дополнительных параметров, таких как
расстояние между словами, распределение слов по секциям
документа, наличие словоформ и синонимов и др.
-
RCO
Компания RCO специализируется на исследованиях в области компьютерной
лингвистики и создании компонентов интеллектуального анализа текста
для информационно-поисковых и информационно-аналитических систем. На
семинаре планируется провести апробацию ряда алгоритмов тематической
классификации документов и поиска документов по запросу.
-
SEUS
SEUS - проект поисковой системы, основанный на автоматическом построении
семантического представления текста. Для ранжирования документов
используются классические мехаизмы ранжирования для векторной модели, Но
вместо термов используются семантические признаки, а в качестве их весов -
показатели достоверности.
Система реализуется на базе:
- Синтаксического анализатора Dictum
- Лексико-синтаксических шаблонов
- Поискового движка Lucene
-
Subject Search Sleuth (SSS)
Subject Search Sleuth (SSS) - это система поиска и построения резюме, в
основе которой лежит оригинальный быстрый непереборный алгорифм
приближённого поиска строки запроса, котрый допускает перестановку терминов,
присутствующих в образце, а также присутствие других терминов или отсутствие
некоторых из них. Благодаря использованию в качестве элементов поиска
Q-Термов вместо слов, канонических словоформ или корневых морфем, алгорифм
SSS легко применим к поиску по текстам на многих языках. Текущая реализация
поддерживает 40 языков, а именно, большинство европейских, а также азиатские
(японский, китайский, корейский), и ряд других, включая иврит, индонезийский
и арабский.
-
Yandex.Server
-
Галактика-Zoom
Галактика-Zoom представляет собой систему обработки больших объемов
неструктурированных данных. Система является инструментом для
создания хранилища текстовой информации, обладает возможностями
полнотекстового поиска и аналитических исследований. При проведении
поиска возможно использование контекстного или тематического поиска,
поиска с учетом морфологии языка, развитого языка поисковых запросов.
Система предоставляет возможность построения информационного образа
объекта исследования (Информационного портрета) на основе языковых
конструкций - слов и словосочетаний.
-
Поиск@Mail.ru
-
Поиск KM.ru
Версия алгоритма mod 2.5. Поисковая система KM.RU - это традиционные
поисковые алгоритмы и собственные разработки.
-
СКАТ
Система основана на комбинированном использование статистических и
лингвистических методов классификации для решения следующих задач:
полнотекстовый поиск, классификация,
кластерный анализ, формирование сводных документов. Описание основных
используемых методов приведено в монографии: Васильев В.Г., Кривенко М.П.
Методы
автоматизированной обработки текстов.
-
УИС РОССИЯ
Университетская информационная система РОССИЯ (УИС РОССИЯ) - проект,
нацеленный на интеграцию информационных ресурсов для гуманитарных
исследований. Поддерживается Научно-исследовательским вычислительным
центром МГУ имени М.В.Ломоносова (НИВЦ МГУ имени М.В.Ломоносова) и АНО
Центр информационных исследований (АНО ЦИИ).
Решения на основе технологий УИС РОССИЯ - тематический анализ текстов,
классификация по большим рубрикаторам, интерактивный поиск документов,
агрегирование новостного потока - используются в некоторых органах
государственной власти и управления, коммерческих организациях.