Тестовые коллекции

Дорожки 2012

Архив

2003

2004

Дорожка по извлечению мнений из поисковой выдачи

Задача

Основной задачей в рамках данной дорожки яляется поиск по коллекции блогов информации о заданном товаре. Основное отличие от стандартного ad-hoc поиска заключается в поиске постов с содержанием оценки заданного товара (или его частей), и выдачу таких постов в порядке убывания вероятности содержания оценки.

Общая процедура проведения дорожки стандартна.

Коллекции для обучения

Исходный набор данных:

Фильмы, 15718 отзывов с рекомендательного сервиса Имхонет (www.imhonet.ru),
Книги, 24159 отзывов с Имхонета,
Цифровые фотокамеры, 10370 отзывов с Яндекс.Маркета.

Система участник получает два набора данных с Имхонета (книги и фильмы) и один набор данных с Яндекс.Маркета (цифровые фотокамеры). Каждый отзыв, собранный с Имхонета, имеет пользовательскую оценку от 1 до 10 баллов. Отзывы, собранные с Яндекс.Маркета, имеет оценку от 1 до 5. Эти оценки участники могут использовать для обучения своих алгоритмов.

Кроме того для обучения будут доступны размеченные данные из блогов, которые использовались для тестирования в прошлом году:

Фильмы, 329 постов из блогов
Книги, 275 постов из блогов
Цифровые камеры, 270 постов из блогов

Дополнительно для каждого поста выделены объекты, о которых идет речь (главные и второстепенные).

Тестовая коллекция

Для формирования тестовой коллекции предполагается использование выдачи сервиса Яндекс.Блоги в трех предметных областях: книги, фильмы, цифровые фотокамеры. В каждой из вышеуказанных областей будет сформирован пул из нескольких тысяч запросов (~3000), для которых будет извлечена выдача сервиса (не более 200 документов на запрос).

Формулировка задания для участвующей системы

Задачей участников является поиск и извлечение документов по каждому из запросов по двум критериям:

соответствие извлеченных документов запросу
субъективность документа по отношению к запросу ( содержится ли какое-либо мнение по отношению к запросу?)

Поиск необходимо будет выполнять по коллекции документов, составленной из выдачи Яндекс.Блоги на все запросы из полного набора по трем областям.
Ответом системы на каждый запрос являются 10 наиболее релевантных документов, упорядоченных по мере снижения релевантности запросу в соответствии с вышеуказанными критериями.

Методология оценки

Случайный выбор 100-200 запросов из общего пула. Каждому запросу соответствует набор документов (не более 200), часть из которых могут быть нерелевантны запросу или не содержать никакой субъективной оценки объекта из запроса или его частей.
Таким образом, для каждой пары (запрос, документ) из выбранных запросов должна быть проставлен маркер в соответствии с разметкой в Trec Blog Track 2006:

-1    Документ не оценивался по тем или иным причинам.
0    Нерелевантный документ. Содержание текста не соответствует информационным потребностям пользователя, заданным в запросе.
1    Релевантный документ. В посте содержится полезная информация (достаточная для определения сущности из запроса) относительно запроса, но не выражено никакой субъективной оценки.

Если текст содержит информацию не только по сущности из запроса, но и выражает некоторую оценку по отношению к нему, тогда такой документ должен быть оценен в соответствии со следующими метками:

2    Пост содержит явное выражение мнения или отношения к сущности из запроса и это мнение является в целом негативным.
3    Тоже, что и (2), но содержит как положительное мнение, так и отрицательное
4    Тоже, что и (2), но содержит только положительное мнение.

Официальные метрики:

Аккуратность (Accuracy)
Точность, Полнота, F-мера (Precision, Recall, F-measure), AUC
MAP, NDCG, P@n